4.2 Vergleich von Architekturen
Zi Fraunhofer %Z Fraunhofer
CML 160
Recall hingegen ist das Verhältnis der korrekten Detektionen zur Gesamtanzahl der tatsächlich vorhandenen Ob-
jekte. Recall quantifiziert, wie viele der Objekte vom System erkannt wurden. Mathematisch sind Precision (P) und
Recall (R) wie folgt definiert:
PP TP R= TP
TP+FP TP+FN
Die mAP kombiniert Precision und Recall, indem sie die Precision-Recall-Kurve berechnet und den Durchschnitt der
Precision-Werte für verschiedene Recall-Schwellenwerte bildet. Diese Kurve zeigt, wie sich Precision und Recall in
Abhängigkeit voneinander verhalten. mAP entspricht letztlich der Fläche unter dieser Kurve (Area Under Precision-
Recall Curve (AUPRC), siehe auch ISOAEC Technical Specification 4213 (6.3.7) [BP9l)
Die mAP-Metrik bietet eine ganzheitliche Bewertung der Leistung von Objektdetektionsalgorithmen, die sowohl
die Genauigkeit der Detektionen als auch deren Positionierung und Größenanpassung berücksichtigt. Je nach An-
wendung, kann auch die umgekehrte Metrik mean Average Recall (mAR) relevant sein.
Für die semantische Segmentierung ist mean Intersection over Union (mloU) die am meisten genutzte Metrik
zur Bewertung der Leistung von Algorithmen. Das m in mIoU steht für das Mittel einzelner loU Werte über die
vorhandenen Objektklassen. Die Berechnung von IoU ist ähnlich zu der im Objektdetektionsbereich aber basiert
auf Mengen von einzelnen Pixeln und nicht auf Flächeninhalten von Boxen. Dieses Maß entspricht dem aus ISOJEC
Technical Specification 4213 (6.5.4) [EB]. lässt sich mathematisch wie folgt ausdrücken:
ANB
loU = “2
9 AUB
wobei A und B Mengen von detektierten und tatsächlichen Pixeln einer Objektklasse sind.
4.2 Vergleich von Architekturen
Im folgenden werden fünf Architekturen aus dem Objektdetektionsbereich vorgestellt und verglichen, die sich in
allgemeinen Anwendungen als erfolgreich erwiesen haben. Dieser Vergleich kann als Teil der Maßnahme (s.
Kapitel E) betrachtet werden.
Objektdetektion
» Faster R-CNN [93]
Taster Region-CNN (Faster R-CNN) ist eine fest establierte und weitverbreitet eingesetzte Architektur für Ob-
jektdetektion und häufig als Ausgangspunkt für Vergleiche verwendet. Sie besteht aus zwei Bearbeitungs-
stufen. Die erste Stufe, das Region Proposal Network (RPN), schlägt potenzielle Positionen für Objekte vor.
Anschließend prüft der zweite Teil, ein Klassifikator und ein Bounding-Box-Regressor, ob sich tatsächlich ein
Objekt an den vorgeschlagenen Stellen befindet, und verfeinert die Position des Objekts. Dieser zweistufige
Prozess ermöglicht Faster R-CNN, Objekte im Vergleich zu vorherigen Architekturen genauer und effizienter
zu finden.
RetinaNet [f7]
RetinaNet ist eine Verbesserung von Faster-R-CNN, die darauf abzielt, das Klassen-Ungleichgewicht zu lösen.
Jas bedeutet, dass i.d.R. einige Arten von Objekten häufiger vorkommen als andere, was ein Neuronales
\letzwerk (NN) verwirren kann. RetinaNet behandelt dieses Problem, indem es besonderen Fokus auf seltene
Objekte legt, sodass sie nicht übersehen werden.
DETR [FA]
Jetection Transformer (DETR) ist die erste Architektur im Bereich der Objektdetektion, die auf 7ransformer-
Netzwerken basiert. Transformer wurden erstmals im Jahr 2017 für die Sprachverarbeitung eingeführt und
seitdem diesen Bereich komplett revolutioniert. Seit wenigen Jahren werden sie auch in der Bildverarbeitung
zunehmend verwendet. Anders als CNN, die nur einen Bildausschnitt nach dem anderen betrachten und somit
ain begrenztes Sichtfeld haben, können Transformer globale Zusammenhänge und Abhängigkeiten im gan-
zen Bild auf einmal erfassen. Ein großer Vorteil von DETR besteht darin, dass es end-to-end trainiert werden
kann. Das bedeutet, dass das Modell vom Eingabebild bis hin zur Ausgabe keine manuellen Zwischenschritte
ader Nachbearbeitung benötigt, wodurch Bedienung und Programmieraufwand deutlich erleichtert werden.
m Gegensatz zu vorherigen Ansätzen verwendet DETR keine von Hand entworfene Komponenten wie Non-
Maximum Suppression (NMS) oder eine Ankergenerierung, sondern behandelt die Objekterkennung als ein
Set-Vorhersageproblem.
Ir