5.3 Aggregation und Sammlung von realen Bilddaten
% Fraunhofer % Fraunhofer
CML 160
gewählten Use-Cases für die Objekterkennung und semantische Segmentierung die aufgeführten Datensätze die
notwendigen Trainingsdaten enthalten um solche Modelle zu entwickeln.
* Singapore Maritime Dataset: Dieser Datensatz umfasst insgesamt 81 Videos, die aus verschiedenen Per-
spektiven und in unterschiedlichen maritimen Szenarien in Singapur aufgenommen wurden. Die Daten ent-
halten neben RGB Bilddaten auch Infrarot Aufnahmen welche jedoch im Kontext der Untersuchungen dieser
Studie nicht weiter betrachtet wurden.
» ABOships Inshore and Offshore Maritime Vessel Detection Dataset: Der ABOships-Datensatz enthält
ca. 10.000 Bilder. Diese Bilder wurden in den Küsten- und Offshore-Gewässern Finnlands aufgenommen und
enthalten eine breite Palette von maritimen Szenarien. Der ABOships-Datensatz enthält Klassen zur Erken-
1ung von Schiffen, Bojen und anderen maritimen Strukturen. [E71]
» MaSTr dataset for training deep USV obstacle detection models: Der MaSTr Datensatz besteht aus 1325
Bildern und bietet eine Sammlung von maritimen Szenarien in den Gewässern von Slovenien. [EZ]
» CML Schiffsbilddatenkbank mit AIS Daten: Der CML Datensatz zur Erstellung von Objekterkennungsal-
gortihmen besteht aus Bildern verschiedener Webcams die über den Hamburger Hafen verteilt sind. Dieser
Datensatz besteht aus Bilddaten und annotierten AIS Daten welche durch einen am CML entwickelt Fusi-
ansalgorithmus erzeugt wurden. Die Daten umfassen etwa 1,2 Millionen Bilder über einen Zeitraum von 6
Monaten. Die Methode zur Erstellung des Datensatzes wird in einem Anfang 2024 veröffentlichten Paper mit
dem Titel (eng.) Image and AIS Data Fusion Technique for Maritime Computer Vision Applications vorgestellt.
5.3.2 Herausforderungen in der Nutzung von realen Bilddaten
Sowohl Daten aus externen Quellen als auch Daten, die während einer Testkampagne durch einen Entwickler
gesammelt werden, sind nicht immer in der erwarteten Form und Qualität verfügbar, wie ursprünglich für den
Anwendungsfall spezifiziert oder vom Entwickler erwartet. Nachfolgend wird auf die im vorherigen Abschnitt be-
schriebenen Qualitätsmerkmale und entsprechende Herausforderungen mit Blick auf die genutzten Datensätze
eingegangen.
Repräsentativität
Die Repräsentativität des Datensatzes ergibt sich bei der Erhebung von Daten aus externen Quellen aus der Form
der erhobenen Daten und ist bei der Erhebung von Echtdaten nur schwer zu kontrollieren. Im Beispiel des CML-
Schiffsbilddatensatzes zeigen die Kameras alle Schiffsklassen, die im Bereich des Hamburger Hafens unterwegs
sind, aus einem erhöhten Blickwinkel, abhängig vom Standort der jeweiligen Webcam. Der CML-Datensatz enthält
somit nur Schiffe, die den Hamburger Hafen anlaufen und sich im Sichtbereich der untersuchten Kameras befinden.
Für Testkampagnen, deren Auslegung vom Hersteller bestimmt werden kann, ist es sinnvoll, die Repräsentativität
ın Abhängigkeit vom Anwendungsfall und der gewählten Anwendungsdomäne zu definieren. Grundsätzlich gilt
für generische Algorithmen, deren Ziel die Erkennung von Schiffen ist, dass der Datensatz von Fraunhofer CML
sowie die im Rahmen der Untersuchung herangezogenen Datensätze eine hohe Eignung aufweisen. Eine entspre-
chende Untersuchung unter Nutzung von Validierungsdaten durch den Entwickler eines Kl-Systems sollte jedoch
unbedingt durchgeführt werden. Die in Tab FH aufgeführten Datensätze enthalten Informationen zur Verteilung der
entsprechenden Schiffsklassen in den zugehörigen wissenschaftlichen Veröffentlichungen. Eine in Abbildung [A
aufgeführte Darstellung zeigt die individuellen Objektklassen und ihren Anteil am gesamten Datensatz in Pro-
zent. Angesichts der in Kapitel FA identifizierten Herausforderungen bei der Anwendung dieser Datensätze ist
ein Abgleich der geplanten Anwendungsdomäne mit der Verteilung der Objektklassen im verwendeten Datensatz
unabdingbar.
+