4.2 Vergleich von Architekturen
Zi Fraunhofer ZZ Fraunhofer
CML 160
» FocalTransformer [A9]
zocalTransformer ist eine weitere Architektur aus der Klasse der Vision Transformer, die insbesondere den
Rechenaufwand bei hochauflösenden Bildern verringert. Er führt einen neuen Mechanismus ein, der sowohl
feine lokale als auch grobe globale Interaktionen umfasst, um visuelle Abhängigkeiten sowohl im Nah- und
Fernbereich effizienter zu erfassen. FocalTransformer ist an sich kein eigenständiger Objektdetektor, sondern
eine generische Backbone, die für Objektdetektion erweitert werden kann.
YOLOv7 [EI]?
YOLOv7 ist die neueste Version aus der YOLO-Familie von Objektdetektionsarchitekturen. YOLO zielt auf
Echtzeitdetektion ab, insbesondere für Anwendungen bei denen eine hohe Bildrate oder Reaktionszeit wich-
tig ist, beispielsweise beim autonomen Fahren. Während frühere Versionen aus dieser Familie, den größeren
und langsameren Architekturen in der Erkennungsleistung deutlich unterlegen waren, konnten nachfolgende
Iterationen diesen Nachteil verringern und mittlerweile sogar die größeren Architekturen übertreffen.
Die Rechenaufwand eines Algorithmus spielt eine wichtige Rolle bei der Eignung von Algorithmen. Er wird in der
Regel in Floating Point Operations per Second (FLOPs) angegeben und bezieht sich auf die Anzahl der Berech-
nungen, die ein NN in einer Sekunde mit Gleitkommazahlen durchführt. Es ist eine wichtige Messgröße, um die
Leistung und den Ressourcenbedarf eines NN zu bewerten und gibt Aufschluss über die Berechnungskomplexität
des Modells und seine Effizienz. Je höher die Anzahl der FLOPs ist, desto mehr Rechenleistung wird benötigt, um
das Netzwerk zu trainieren oder Vorhersagen zu treffen. Für Echtzeitanwendungen relevant, beeinflusst das auch
die Latenzzeiten.
Die zuvor aufgeführten Architekturen sind in Tabelle Q mit Metriken evaluiert auf dem Datensatz COCO [E71]
gegenübergestellt.
Tabelle 2: Vergleich von verbreitenen Architekturen im Objektdetektionsbereich bei allgemeinen Anwendungen.
Architektur Jahr Art Parameter FLOPs MmAP (COCO)
Faster-R-CNN 2015 CNN 42M 134G 37.0
RetinaNet 2017 CNN 38M 152G 36.4
DETR 2020 Transformer 41M 187G 42.0
zocalTransformer 2021 Transformer 39M 265G 45.5
YOLOV7 2023 CNN 37M 105G 51.4
Semantische Segmentierung
» DeeplLabV3 [EA]
DeepLabV3 ist eine Architektur für semantische Bildsegmentierungsaufgaben. Es baut auf dem Erfolg frühe-
‚er Versionen auf und kombiniert atrous (erweiterte) Konvolution und die Verwendung eines leistungsstarken
Encoder-Decoder-Frameworks. DeepLabV3 verwendet ASPP-Module (Atrous Spatial Pyramid Pooling), um
mehrskalige Kontextinformationen und -funktionen zu erfassen und so hochpräzise und feinkörnige Seg-
nentierungsergebnisse für eine Vielzahl von Bildern und Szenen zu erzielen. DeepLabV3 ist vergleichsweise
einfach aufgebaut und liefert solide Ergebnisse, weswegen es mittlerweile zu einer Standardarchitektur für
aine Vielzahl von Anwendungen geworden ist.
LR-ASPP [B3]
LR-ASPP (Lite Reduced Atrous Spatial Pyramid Pooling) ist eine auf Echtzeitanwendungen und mobile Endge-
räte optimierte Architektur. Das Modell ermöglicht deutlich schnellere Verarbeitung von Bildern und deutlich
‚eduzierte Latenzzeiten bei ähnlicher Genaugkeit als größere Systeme.
OCR [EA]
Diese Architektur ist die Erste, die teilweise Transformer für Semantische Segmentierung einsetzt. Im Gegen-
satz zu CNN sind Transformer gut geeignet um globale Abhängigkeiten innerhalb eines Bildes zu erfassen,
Nas gerade bei Segmentierungsaufgaben von Vorteil ist. Anstatt jeden Pixel einzeln zu klassifizieren, versucht
diese Methode erst andere Pixel zu finden die vermutlich zum selben Objekt oder Region gehören. Erst dann
werden sie gemeinsam einer Klasse zugeordnet.
3Der offizielle Quellcode für You Only Look Once (YOLO), einschließlich YOLOv7, ist unter den Nutzungsrechten der GNU General Public
License (GPL) veröffentlicht.