Skip to main content

Full text: BAnA Studie zur Bewertung von Algorithmen für nautische Anwendungen

4.2 Vergleich von Architekturen 
Zi Fraunhofer %Z Fraunhofer 
CML 160 
Recall hingegen ist das Verhältnis der korrekten Detektionen zur Gesamtanzahl der tatsächlich vorhandenen Ob- 
jekte. Recall quantifiziert, wie viele der Objekte vom System erkannt wurden. Mathematisch sind Precision (P) und 
Recall (R) wie folgt definiert: 
PP TP R= TP 
TP+FP TP+FN 
Die mAP kombiniert Precision und Recall, indem sie die Precision-Recall-Kurve berechnet und den Durchschnitt der 
Precision-Werte für verschiedene Recall-Schwellenwerte bildet. Diese Kurve zeigt, wie sich Precision und Recall in 
Abhängigkeit voneinander verhalten. mAP entspricht letztlich der Fläche unter dieser Kurve (Area Under Precision- 
Recall Curve (AUPRC), siehe auch ISOAEC Technical Specification 4213 (6.3.7) [BP9l) 
Die mAP-Metrik bietet eine ganzheitliche Bewertung der Leistung von Objektdetektionsalgorithmen, die sowohl 
die Genauigkeit der Detektionen als auch deren Positionierung und Größenanpassung berücksichtigt. Je nach An- 
wendung, kann auch die umgekehrte Metrik mean Average Recall (mAR) relevant sein. 
Für die semantische Segmentierung ist mean Intersection over Union (mloU) die am meisten genutzte Metrik 
zur Bewertung der Leistung von Algorithmen. Das m in mIoU steht für das Mittel einzelner loU Werte über die 
vorhandenen Objektklassen. Die Berechnung von IoU ist ähnlich zu der im Objektdetektionsbereich aber basiert 
auf Mengen von einzelnen Pixeln und nicht auf Flächeninhalten von Boxen. Dieses Maß entspricht dem aus ISOJEC 
Technical Specification 4213 (6.5.4) [EB]. lässt sich mathematisch wie folgt ausdrücken: 
ANB 
loU = “2 
9 AUB 
wobei A und B Mengen von detektierten und tatsächlichen Pixeln einer Objektklasse sind. 
4.2 Vergleich von Architekturen 
Im folgenden werden fünf Architekturen aus dem Objektdetektionsbereich vorgestellt und verglichen, die sich in 
allgemeinen Anwendungen als erfolgreich erwiesen haben. Dieser Vergleich kann als Teil der Maßnahme (s. 
Kapitel E) betrachtet werden. 
Objektdetektion 
» Faster R-CNN [93] 
Taster Region-CNN (Faster R-CNN) ist eine fest establierte und weitverbreitet eingesetzte Architektur für Ob- 
jektdetektion und häufig als Ausgangspunkt für Vergleiche verwendet. Sie besteht aus zwei Bearbeitungs- 
stufen. Die erste Stufe, das Region Proposal Network (RPN), schlägt potenzielle Positionen für Objekte vor. 
Anschließend prüft der zweite Teil, ein Klassifikator und ein Bounding-Box-Regressor, ob sich tatsächlich ein 
Objekt an den vorgeschlagenen Stellen befindet, und verfeinert die Position des Objekts. Dieser zweistufige 
Prozess ermöglicht Faster R-CNN, Objekte im Vergleich zu vorherigen Architekturen genauer und effizienter 
zu finden. 
RetinaNet [f7] 
RetinaNet ist eine Verbesserung von Faster-R-CNN, die darauf abzielt, das Klassen-Ungleichgewicht zu lösen. 
Jas bedeutet, dass i.d.R. einige Arten von Objekten häufiger vorkommen als andere, was ein Neuronales 
\letzwerk (NN) verwirren kann. RetinaNet behandelt dieses Problem, indem es besonderen Fokus auf seltene 
Objekte legt, sodass sie nicht übersehen werden. 
DETR [FA] 
Jetection Transformer (DETR) ist die erste Architektur im Bereich der Objektdetektion, die auf 7ransformer- 
Netzwerken basiert. Transformer wurden erstmals im Jahr 2017 für die Sprachverarbeitung eingeführt und 
seitdem diesen Bereich komplett revolutioniert. Seit wenigen Jahren werden sie auch in der Bildverarbeitung 
zunehmend verwendet. Anders als CNN, die nur einen Bildausschnitt nach dem anderen betrachten und somit 
ain begrenztes Sichtfeld haben, können Transformer globale Zusammenhänge und Abhängigkeiten im gan- 
zen Bild auf einmal erfassen. Ein großer Vorteil von DETR besteht darin, dass es end-to-end trainiert werden 
kann. Das bedeutet, dass das Modell vom Eingabebild bis hin zur Ausgabe keine manuellen Zwischenschritte 
ader Nachbearbeitung benötigt, wodurch Bedienung und Programmieraufwand deutlich erleichtert werden. 
m Gegensatz zu vorherigen Ansätzen verwendet DETR keine von Hand entworfene Komponenten wie Non- 
Maximum Suppression (NMS) oder eine Ankergenerierung, sondern behandelt die Objekterkennung als ein 
Set-Vorhersageproblem. 
Ir
	        
Waiting...

Note to user

Dear user,

In response to current developments in the web technology used by the Goobi viewer, the software no longer supports your browser.

Please use one of the following browsers to display this page correctly.

Thank you.