Ze Fraunhofer zZ Fraunhofer
CML 160
4 Untersuchung und Vergleich von Objekterkennungsalgorithmen
Objekterkennungsalgorithmen ermöglichen Kl-Systemen die Identifizierung und Klassifizierung verschiedener Ob-
jekte. Im nautischen Kontext sind das beispielsweise Schiffe, Bojen, Hindernisse und Navigationshilfen. Die genaue
Erkennung dieser Objekte ist von grundlegender Bedeutung für die Gewährleistung einer sicheren Navigation, Kol-
lisionsvermeidung und Überwachung des Schiffsverkehrs in Häfen. Dieses Kapitel befasst sich mit der Untersuchung
und dem Vergleich von Erkennungsalgorithmen unter Berücksichtigung der Herausforderungen, die die maritime
Umgebung mit sich bringt, und dem Vergleich ihrer Leistung mit allgemeineren Anwendungen. Der Hauptau-
genmerk der zu erkennenden Objekten gilt Schiffen, da aktuell noch keine hinreichend umfangreiche und an-
notierte Datensätze für andere nautische Objekte wie Bojen, Hindernissen oder Navigationshilfen existieren. Die
Erkennungsalgorithmen werden in der Studie zwischen hinsichtlich der Ziele der Objektdetektion und semantische
Segmentierung unterschieden (Vgl. Abbildung B).
Input image
Segmentation mask
ObHect detection
Abbildung 8: Ausgehend von maritimen Bildern (unter „Input image“) Unterscheidung zwischen semantische
Segmentierung (unter „Segmentation Mask”) und Objekterkennung (unter „Object detection“) [A3].
Im Bereich der Bildverarbeitung ist Objektdetektion eine Aufgabenstellung die sich die Lokalisierung und Klas-
sifizierung mehrerer Objekte innerhalb eines Bildes oder Videoframe konzentriert. Dabei gilt es in der Regel, den
Mittelpunkt und die Größe jeder Objektinstanz zu ermitteln, die normalerweise als eine Begrenzungsbox dargestellt
wird, und eine entsprechende Klassenbezeichnung zuzuweisen.
Bei der semantischen Segmentierung hingegen handelt es sich um die Aufgabe, jedem Pixel in einem Bild
oder Videoframe einer Klasse zuzuweisen und so die Szene in sinnvolle Bereiche zu segmentieren. Semantische
Segmentierung ist insbesondere nützlich, um Bereiche statt Objekte zu erkennen, die sich nicht so einfach als
eine Begrenzungsbox darstellen lassen. Dieses feinkörnigere Verständnis der Umgebung ermöglicht zusätzliche
Anwendungen, wie zum Beispiel die Abschätzung der Horizontlinie und daraus wiederum den Neigungswinkel für
den Einsatz in unbemannten Überwasserfahrzeugen.
Beide Aufgabenstellungen stellen ein aktives Forschungsgebiet der Computer Vision dar. Seit einigen Jahren
werden diese Aufgabenstellungen von KlI-basierten Methoden aus dem Bereich DL dominiert. Insbesondere zwei
Klassen von Architekturen haben sich dabei etabliert: CNN und Vision-Transformer.
4.1 Leistungsmetriken
Um zu bewerten wie gut ein Kl-System funktioniert, werden Leistungsmetriken verwendet (s. Kapitel B, Maßnahme
KE3). Diese Metriken bieten einen standardisierten Rahmen für die quantitative Bewertung und erlauben somit
verschiedene Architekturen miteinander zu vergleichen. In ISOAEC Technical Specification 4213 sind bereits eine
Reihe von Metriken definiert, jedoch nur für Varianten der Bild-Klassifikationsaufgabe [B8]. Für den Objektdetek-
tionsbereich sind diese nur bedingt einsetzbar, da hier sowohl die Anzahl als auch die Lokalisierung der Objekte
einbezogen werden sollte. Hierbei hat sich mean Average Precision (mAP) als wichtigste Metrik etabliert.
Um diese Metrik zu berechnen, müssen Detektionen zuerst in drei Fehlerklassen eingeteilt werden:
1A