5.4 Synthese von Bilddaten
Zi Fraunhofer Zi Fraunhofer
CML 160
erzeugt werden [E3]. Dies bringt den Vorteil, dass Bilddatensätze unabhängig beschafft werden könnten und im
Falle von nicht verfügbaren repräsentativen Datensätzen kein kosten- und zeitaufwendiges Datensammeln betrie-
ben werden müsste. Darüber hinaus ist es möglich die synthetischen Daten ihren Anforderungen entsprechend
zu erzeugen und initial mit Annotationen verschiedener Arten, z.B. Objekt-Begrenzungsboxen oder segmentier-
;en Bereichen, und mit verschiedenen zugehörigen Informationen, z.B. Schiffstypen oder Wetterverhältnisse, zu
versehen.
5.4.1 Aktuelle Verfahren
Synthetische Bilddaten können auf verschiedene Weise erzeugt werden. Gängige Verfahren sind Spielengines oder
vortrainierte neuronale Netze, letztere bekannt als Bildgeneratoren. [p3].
Mit Spiele-Engines, wie beispielsweise der Unreal Engine, lassen sich nach Belieben fiktive Welten erzeugen und
Steuern. Die Bildsynthese ist dabei präzise durch die das eigens gewählte Szenario in der fiktive Welt vorgegeben.
Der Nachteil einer Spiele-Engine liegt im Zeitaufwand zur Erstellung der erforderlichen Szenarien, wodurch die
Komplexität der möglichen Szenarien eingeschränkt werden könnte.
Sogenannte Bildgeneratoren hingegen synthetisieren Bilder nicht auf Grundlage von selbst konfigurierten, fik-
tiven Welten sondern i.d.R. durch Texteingaben, sogenannten Prompts. Grundlage dieser Bildgeneratoren bilden
Netzwerke mit unterschiedlichen Architekturen. Bekannte Beispiele sind Generative Adversarial Networks (GAN),
Diffusionsmodelle oder Variational Autoencoder (VAE) [E3, 3]. Prominente Beispiele für Bildgeneratoren sind Stable
Diffusion XL, Midjourney und DALL-E 2 [79]. Das Programm Dall-E 2 ermöglicht es generierte Bilder durch weitere
Prompts nachträglich anzupassen oder ähnliche Bilder zu generieren. Die Entwicklungen in diesem Feld schreiten
zügig voran, so dass beispielsweise Dall-E 2 im Zeitraum der Fertigstellung der Studie durch den Nachfolger DALL-E
3 ersetzt werden wird [71]. Dieser baut nativ auf ChatGPT auf und soll nachträgliche Anpassungen von generierten
Bildern weiter verbessern.
Aktuelle Forschungsentwicklungen gehen in die Richtung, dass Bilder nicht nur (einmalig) basierend auf Grund-
lage von Prompts erzeugt werden können, sondern andere Modalitäten herangezogen werden können [E39]. Hierbei
wird die Möglichkeit von visuellen Eingaben, z.B. semantischen Karten, Szenario-Aufbauten oder Skizzen, erforscht.
Gerade semantische Karten oder Szenario-Aufbauten ließen sich mit der Anwendungsdomäne aus dem LZM in Ver-
bindung bringen [23, 7A].
Bereits mit den aktuellen Versionen der Bildgeneratoren sind die Ergebnisse bei der Verwendung von verschie-
denen szenariobeschreibenden Ausdrücken wie bewölkt oder wolkenlos deutlich erkennbar. Diese sind in den
Abbildungen [I] und [I unter Verwendung von Dall-E 2 und in den Abbildungen [9 und ZI unter Verwendung
von Stable Diffusion dargestellt.
Abbildung 17: Synthetische Bilder erzeugt mit DALL-E 2 bei Verwendung der Texteingabe mulitple container vessels
in coastal waters in cloudless weather during daytime. Das erste Bild wurde zuerst erzeugt und die nachfolgenden
drei nachträglich als Variationen des ersten.
ZQ