Skip to main content

Full text: BAnA Studie zur Bewertung von Algorithmen für nautische Anwendungen

4.2 Vergleich von Architekturen 
Zi Fraunhofer ZZ Fraunhofer 
CML 160 
» FocalTransformer [A9] 
zocalTransformer ist eine weitere Architektur aus der Klasse der Vision Transformer, die insbesondere den 
Rechenaufwand bei hochauflösenden Bildern verringert. Er führt einen neuen Mechanismus ein, der sowohl 
feine lokale als auch grobe globale Interaktionen umfasst, um visuelle Abhängigkeiten sowohl im Nah- und 
Fernbereich effizienter zu erfassen. FocalTransformer ist an sich kein eigenständiger Objektdetektor, sondern 
eine generische Backbone, die für Objektdetektion erweitert werden kann. 
YOLOv7 [EI]? 
YOLOv7 ist die neueste Version aus der YOLO-Familie von Objektdetektionsarchitekturen. YOLO zielt auf 
Echtzeitdetektion ab, insbesondere für Anwendungen bei denen eine hohe Bildrate oder Reaktionszeit wich- 
tig ist, beispielsweise beim autonomen Fahren. Während frühere Versionen aus dieser Familie, den größeren 
und langsameren Architekturen in der Erkennungsleistung deutlich unterlegen waren, konnten nachfolgende 
Iterationen diesen Nachteil verringern und mittlerweile sogar die größeren Architekturen übertreffen. 
Die Rechenaufwand eines Algorithmus spielt eine wichtige Rolle bei der Eignung von Algorithmen. Er wird in der 
Regel in Floating Point Operations per Second (FLOPs) angegeben und bezieht sich auf die Anzahl der Berech- 
nungen, die ein NN in einer Sekunde mit Gleitkommazahlen durchführt. Es ist eine wichtige Messgröße, um die 
Leistung und den Ressourcenbedarf eines NN zu bewerten und gibt Aufschluss über die Berechnungskomplexität 
des Modells und seine Effizienz. Je höher die Anzahl der FLOPs ist, desto mehr Rechenleistung wird benötigt, um 
das Netzwerk zu trainieren oder Vorhersagen zu treffen. Für Echtzeitanwendungen relevant, beeinflusst das auch 
die Latenzzeiten. 
Die zuvor aufgeführten Architekturen sind in Tabelle Q mit Metriken evaluiert auf dem Datensatz COCO [E71] 
gegenübergestellt. 
Tabelle 2: Vergleich von verbreitenen Architekturen im Objektdetektionsbereich bei allgemeinen Anwendungen. 
Architektur Jahr Art Parameter FLOPs MmAP (COCO) 
Faster-R-CNN 2015 CNN 42M 134G 37.0 
RetinaNet 2017 CNN 38M 152G 36.4 
DETR 2020 Transformer 41M 187G 42.0 
zocalTransformer 2021 Transformer 39M 265G 45.5 
YOLOV7 2023 CNN 37M 105G 51.4 
Semantische Segmentierung 
» DeeplLabV3 [EA] 
DeepLabV3 ist eine Architektur für semantische Bildsegmentierungsaufgaben. Es baut auf dem Erfolg frühe- 
‚er Versionen auf und kombiniert atrous (erweiterte) Konvolution und die Verwendung eines leistungsstarken 
Encoder-Decoder-Frameworks. DeepLabV3 verwendet ASPP-Module (Atrous Spatial Pyramid Pooling), um 
mehrskalige Kontextinformationen und -funktionen zu erfassen und so hochpräzise und feinkörnige Seg- 
nentierungsergebnisse für eine Vielzahl von Bildern und Szenen zu erzielen. DeepLabV3 ist vergleichsweise 
einfach aufgebaut und liefert solide Ergebnisse, weswegen es mittlerweile zu einer Standardarchitektur für 
aine Vielzahl von Anwendungen geworden ist. 
LR-ASPP [B3] 
LR-ASPP (Lite Reduced Atrous Spatial Pyramid Pooling) ist eine auf Echtzeitanwendungen und mobile Endge- 
räte optimierte Architektur. Das Modell ermöglicht deutlich schnellere Verarbeitung von Bildern und deutlich 
‚eduzierte Latenzzeiten bei ähnlicher Genaugkeit als größere Systeme. 
OCR [EA] 
Diese Architektur ist die Erste, die teilweise Transformer für Semantische Segmentierung einsetzt. Im Gegen- 
satz zu CNN sind Transformer gut geeignet um globale Abhängigkeiten innerhalb eines Bildes zu erfassen, 
Nas gerade bei Segmentierungsaufgaben von Vorteil ist. Anstatt jeden Pixel einzeln zu klassifizieren, versucht 
diese Methode erst andere Pixel zu finden die vermutlich zum selben Objekt oder Region gehören. Erst dann 
werden sie gemeinsam einer Klasse zugeordnet. 
3Der offizielle Quellcode für You Only Look Once (YOLO), einschließlich YOLOv7, ist unter den Nutzungsrechten der GNU General Public 
License (GPL) veröffentlicht.
	        
Waiting...

Note to user

Dear user,

In response to current developments in the web technology used by the Goobi viewer, the software no longer supports your browser.

Please use one of the following browsers to display this page correctly.

Thank you.