Zi Fraunhofer zZ Fraunhofer
CML 160
5 Methoden zur Erstellung eines Datensatzes für die Entwicklung von
maritimen Objekterkennungsalgorithmen
Für das Training der in Kapitel A] eingeführten Algorithmen ist die Beschaffung von geeigneten Bilddaten eine
grundlegende Voraussetzung. Im Folgenden werden die Art der Daten sowie Anforderungen und Möglichkeiten zur
Beschaffung aufgeführt und erläutert. Ziel dieses Kapitels ist es Eigenschaften von Bilddaten (real und synthetisch)
sowie Herausforderungen in der Beschaffung und Nutzung dieser Daten herauszuarbeiten. Die Erkenntnisse aus
diesem Kapitel sollen helfen Probleme und möglich Schwachstellen in der Nutzung bestimmter Daten frühzeitig zu
identifizieren und darauf reagieren zu können.
Realdaten bezeichnen in diesem Zusammenhang Bilddaten, die in der Regel im Rahmen von Testkampagnen
(z.B. an Bord eines Schiffes) entweder selbst oder von Dritten erhoben und zur freien Verfügung gestellt werden.
Zusammengefasst zeichnen sie sich dadurch aus, dass sie mit Hilfe von Kamerasystemen aufgenommen wurden.
Synthetische Daten hingegen sind künstlich erzeugte Bilddaten, die entweder reale Datensätze ergänzen oder
eigenständige künstliche Datensätze bilden.
5.1 Einordnung der Datenbeschaffung und -verwendung in Lebenszyklusmodell
Die Betrachtung des LZM (s. Kapitel B)) zeigt, dass Datenbeschaffung und -verwendung insbesondere in den Phasen
Konzeption, Entwicklung und Betrieb eine zentrale Rolle spielen. Diese Einordnung ist in Abbildung [3 illustriert.
Datensätze
UREBEHNEALNKHANEENNERAEKEÄÜNNESNERANEEEE>.2>
Verwendung [Yewendung
vorhandener vorhandener
Datensätze ı Datensätze
\ugmentierung
vorhandener Daten- |Semnrng von
sätze und Synthese realen Daten
1euer Daten
3
A ene
AH UT TS
= &
aa
„I
Fanme
Lebenszyklusmodell
Abbildung 13: Einordnung der Datenbeschaffung und -verwendung in das Lebenszyklusmodell.
Die benötigten Bilddaten dienen in der Konzeptionsphase als Grundlage für die Bewertung der Machbarkeit zur
ımplementierung eines Objekterkennungs- oder Segmentierungsalgorithmus, welcher auf ML basiert, und in der
Entwicklungsphase als Trainingsgrundlage, um das Modell mit den benötigten Bilddaten zu trainieren. Die Phase
des Betriebs dient der Sammlung weiterer Bilddaten um Anpassungen an den Modellen für domänenspezifische
Problemstellungen durchzuführen oder um sie für andere Anwendungen zu verwenden. Anpassungen hinsichtlich
der Verteilung der Objektklassen in den Datensätzen können auch unter Verwendung synthetischer Daten genutzt
werden, indem die Datensätze augmentiert werden.
Reale, synthetische oder gemischte Datensätze liefern unterschiedliche Trainingsergebnisse, weshalb sie grund-
legend differenziert zu betrachten sind (vgl. [E3). Im Folgenden wird auf systematische Gemeinsamkeiten und
spezifische Anforderungen von realen und synthetischen Daten eingegangen.
5.2 Allgemeine Anforderungen an Bilddaten
Bilddaten sind eine grundlegende Form visueller Informationen, die in der Computergrafik und insbesondere bei
der Entwicklung von ML-Algorithmen zur Objektdetektion und semantischen Segmentierung als hauptsächliche
Datenquelle dienen. Bilddaten bestehen aus einer Sammlung von Datenpunkten, spezifischer Pixelinformationen
eines Kamerasystems oder synthetischen Algorithmus, deren Anordnung das Bild darstellen und verschiedene Sze-
nen oder Objekten erfassen und entsprechend abbilden.