Skip to main content

Full text: BAnA Studie zur Bewertung von Algorithmen für nautische Anwendungen

5.4 Synthese von Bilddaten 
Zi Fraunhofer Zi Fraunhofer 
CML 160 
erzeugt werden [E3]. Dies bringt den Vorteil, dass Bilddatensätze unabhängig beschafft werden könnten und im 
Falle von nicht verfügbaren repräsentativen Datensätzen kein kosten- und zeitaufwendiges Datensammeln betrie- 
ben werden müsste. Darüber hinaus ist es möglich die synthetischen Daten ihren Anforderungen entsprechend 
zu erzeugen und initial mit Annotationen verschiedener Arten, z.B. Objekt-Begrenzungsboxen oder segmentier- 
;en Bereichen, und mit verschiedenen zugehörigen Informationen, z.B. Schiffstypen oder Wetterverhältnisse, zu 
versehen. 
5.4.1 Aktuelle Verfahren 
Synthetische Bilddaten können auf verschiedene Weise erzeugt werden. Gängige Verfahren sind Spielengines oder 
vortrainierte neuronale Netze, letztere bekannt als Bildgeneratoren. [p3]. 
Mit Spiele-Engines, wie beispielsweise der Unreal Engine, lassen sich nach Belieben fiktive Welten erzeugen und 
Steuern. Die Bildsynthese ist dabei präzise durch die das eigens gewählte Szenario in der fiktive Welt vorgegeben. 
Der Nachteil einer Spiele-Engine liegt im Zeitaufwand zur Erstellung der erforderlichen Szenarien, wodurch die 
Komplexität der möglichen Szenarien eingeschränkt werden könnte. 
Sogenannte Bildgeneratoren hingegen synthetisieren Bilder nicht auf Grundlage von selbst konfigurierten, fik- 
tiven Welten sondern i.d.R. durch Texteingaben, sogenannten Prompts. Grundlage dieser Bildgeneratoren bilden 
Netzwerke mit unterschiedlichen Architekturen. Bekannte Beispiele sind Generative Adversarial Networks (GAN), 
Diffusionsmodelle oder Variational Autoencoder (VAE) [E3, 3]. Prominente Beispiele für Bildgeneratoren sind Stable 
Diffusion XL, Midjourney und DALL-E 2 [79]. Das Programm Dall-E 2 ermöglicht es generierte Bilder durch weitere 
Prompts nachträglich anzupassen oder ähnliche Bilder zu generieren. Die Entwicklungen in diesem Feld schreiten 
zügig voran, so dass beispielsweise Dall-E 2 im Zeitraum der Fertigstellung der Studie durch den Nachfolger DALL-E 
3 ersetzt werden wird [71]. Dieser baut nativ auf ChatGPT auf und soll nachträgliche Anpassungen von generierten 
Bildern weiter verbessern. 
Aktuelle Forschungsentwicklungen gehen in die Richtung, dass Bilder nicht nur (einmalig) basierend auf Grund- 
lage von Prompts erzeugt werden können, sondern andere Modalitäten herangezogen werden können [E39]. Hierbei 
wird die Möglichkeit von visuellen Eingaben, z.B. semantischen Karten, Szenario-Aufbauten oder Skizzen, erforscht. 
Gerade semantische Karten oder Szenario-Aufbauten ließen sich mit der Anwendungsdomäne aus dem LZM in Ver- 
bindung bringen [23, 7A]. 
Bereits mit den aktuellen Versionen der Bildgeneratoren sind die Ergebnisse bei der Verwendung von verschie- 
denen szenariobeschreibenden Ausdrücken wie bewölkt oder wolkenlos deutlich erkennbar. Diese sind in den 
Abbildungen [I] und [I unter Verwendung von Dall-E 2 und in den Abbildungen [9 und ZI unter Verwendung 
von Stable Diffusion dargestellt. 
Abbildung 17: Synthetische Bilder erzeugt mit DALL-E 2 bei Verwendung der Texteingabe mulitple container vessels 
in coastal waters in cloudless weather during daytime. Das erste Bild wurde zuerst erzeugt und die nachfolgenden 
drei nachträglich als Variationen des ersten. 
ZQ
	        
Waiting...

Note to user

Dear user,

In response to current developments in the web technology used by the Goobi viewer, the software no longer supports your browser.

Please use one of the following browsers to display this page correctly.

Thank you.