Skip to main content

Full text: BAnA Studie zur Bewertung von Algorithmen für nautische Anwendungen

4,3 Training 
Zi Fraunhofer %Z Fraunhofer 
CML 160 
° SegFormer [E53] 
Anders als OCR, besteht die SegFormer Architektur vollständig aus Transformerbauteilen. Sie führt insbe- 
sondere viele Vereinfachungen ein, die zuvor nur umständlich gelöst wurden. Das wirkt sich zudem positiv, 
sowohl auf die Erkennungsleitung als auch auf die Geschwindigkeit, aus. SegFormer zeigt ein hohes Grad 
an Robustheit auf, d.h. es kann mit störenden Einflüssen, wie z.B. wechselnden Wetterbedingungen gut 
Jmgehen, was auf die Transformerarchitektur zurückgeführt werden kann. 
ViT-Adapter [59] 
Wie bereits oben erwähnt, haben Vision Transformer (ViT) gegenüber CNN mehrere Vorteile, aber diese kom- 
nen auf Kosten von deutlich längeren Trainingaufwand. ViT-Adapter ist eine Methode, die das Training von 
ViTs erleichtert, indem sie bildbezogenes induktives Vorwissen ausnutzt. Insbesondere ermöglicht ViT-Adapter 
multimodales Training, d.h. kombiniert Bilder mit anderen Arten von Daten, z.B Text oder Audio. 
Die folgende Tabelle A stellt diese Architekturen gegenüber, mit Metriken evaluiert auf dem generischen Da- 
ensatz ADE20K [BA] und dem Datensatz Cityscapes [53] aus dem Automobilbereich. 
Tabelle 3: Vergleich von verbreiteten Architekturen im Bereich der semantischen Segmentierung bei allgemeinen 
Anwendungen. 
Architektur Jahr Art Parameter FLOPs MmIoU (ADE20K) MmIoU (Cityscapes) 
DeepLabV3 2017 = CNN 42M 10.4G 44.1 80.9 
LR-ASPP 2019 CNN 3.2M 3.2G - 72.4 
DCR 2020 Transformer 10.5M 340G 45.3 82.4 
SegFormer 2021 Transformer 44.0M 79G 50.0 83.3 
ViT-Adapter 2023 Transformer 133.9M 403G 52.5 
4.3 Training 
Alle oben genannten Architekturen basieren auf NN. Bevor sie verwendet werden können, müssen sie durch einen 
iterativen Lernprozess auf einen Datensatz trainiert werden. Dieser Prozess zielt darauf ab, die Fehlerabweichung 
zwischen der vorhergesagten Ausgabe des Netzwerks und der tatsächlich gewünschten Ausgabe zu minimieren. 
Effektives Training neuronaler Netze erfordert die Einhaltung mehrerer Best Practices und Vermeidung einiger Tü- 
cken. Die hier durchgeführten Prozesse können als Teile der Maßnahmen E:.E1 und (s. Kapitel EB) betrachtet 
werden. 
Beispielsweise tritt Overfitting (Überanpassung) auf, wenn ein ML-Modell die Trainingsdaten auswendig lernt 
und somit die Fähigkeit verliert, auf neuen, unbekannten Daten korrekte Vorhersagen zu treffen. Dies passiert, wenn 
das Modell irrelevante Muster aus den Trainingsdaten erfasst und diese Muster nicht auf andere Daten verallgemei- 
nert werden können. Overfitting beeinträchtigt die Performanz unter Real-Bedingungen (s. Kapitel ], Maßnahme 
ER. 
Um das Ausmaß des Overfitting abzuschätzen, werden Daten in ein Trainings- und Validierungs- und Testset 
aufgeteilt (s. International Standard ISO/IEC IS 22989 Kapitel 5.11.8 [BA]). Das Trainingsset wird verwendet, um das 
Modell zu trainieren. Die Validierungsdaten werden während und nach dem Training verwendet, um Hyperparame- 
ter (z.B die Auswahl der Architektur) zu optimieren. Das Testset sind Daten, die das Modell während des Trainings 
nicht gesehen hat. Es wird letztlich verwendet, um die Leistung des Modells zu evaluieren. Durch die Aufteilung 
der Daten kann sichergestellt werden, dass die Genauigkeit eines Modells dem Einsatz unter Realbedingungen 
entspricht. 
Um Overfitting in Grenzen zu halten, ist es etablierte Praxis Datenaugmentierung anzuwenden. Dabei werden 
die vorhandenen Trainingsdaten modifiziert oder umgeformt, um neue Variationen zu erzeugen. Häufig eingesetzte 
Transformationen sind hier z.B. Drehen, Skalieren, Spiegeln oder Hinzufügen von Rauschen. Datenaugmentierung 
hilft dabei, Overfitting zu reduzieren, indem es dem Modell mehr Beispiele aus verschiedenen Blickwinkeln und 
Variationen bietet und somit robustere Muster antrainiert. 
Transfer Learning ist eine Technik, bei der das Wissen eines vorab trainierten Modells auf eine neue, verwandte 
Aufgabe angewendet wird. Dieses vortrainierte Modell wird in der Regel auf einen großen, genersichen Daten- 
satz wie ImageNet [53] oder COCO [ET] trainiert und anschließend auf den kleineren Zieldatensatz für die neue 
Aufgabe geringfügig angepasst. Anstatt bei Null anzufangen, nutzt das Modell die gelernten Darstellungen aus 
der ursprünglichen Aufgabe und passt sie anhand der neuen Daten an. Transfer Learning kann erheblich Zeit und
	        
Waiting...

Note to user

Dear user,

In response to current developments in the web technology used by the Goobi viewer, the software no longer supports your browser.

Please use one of the following browsers to display this page correctly.

Thank you.