4,3 Training
Zi Fraunhofer %Z Fraunhofer
CML 160
° SegFormer [E53]
Anders als OCR, besteht die SegFormer Architektur vollständig aus Transformerbauteilen. Sie führt insbe-
sondere viele Vereinfachungen ein, die zuvor nur umständlich gelöst wurden. Das wirkt sich zudem positiv,
sowohl auf die Erkennungsleitung als auch auf die Geschwindigkeit, aus. SegFormer zeigt ein hohes Grad
an Robustheit auf, d.h. es kann mit störenden Einflüssen, wie z.B. wechselnden Wetterbedingungen gut
Jmgehen, was auf die Transformerarchitektur zurückgeführt werden kann.
ViT-Adapter [59]
Wie bereits oben erwähnt, haben Vision Transformer (ViT) gegenüber CNN mehrere Vorteile, aber diese kom-
nen auf Kosten von deutlich längeren Trainingaufwand. ViT-Adapter ist eine Methode, die das Training von
ViTs erleichtert, indem sie bildbezogenes induktives Vorwissen ausnutzt. Insbesondere ermöglicht ViT-Adapter
multimodales Training, d.h. kombiniert Bilder mit anderen Arten von Daten, z.B Text oder Audio.
Die folgende Tabelle A stellt diese Architekturen gegenüber, mit Metriken evaluiert auf dem generischen Da-
ensatz ADE20K [BA] und dem Datensatz Cityscapes [53] aus dem Automobilbereich.
Tabelle 3: Vergleich von verbreiteten Architekturen im Bereich der semantischen Segmentierung bei allgemeinen
Anwendungen.
Architektur Jahr Art Parameter FLOPs MmIoU (ADE20K) MmIoU (Cityscapes)
DeepLabV3 2017 = CNN 42M 10.4G 44.1 80.9
LR-ASPP 2019 CNN 3.2M 3.2G - 72.4
DCR 2020 Transformer 10.5M 340G 45.3 82.4
SegFormer 2021 Transformer 44.0M 79G 50.0 83.3
ViT-Adapter 2023 Transformer 133.9M 403G 52.5
4.3 Training
Alle oben genannten Architekturen basieren auf NN. Bevor sie verwendet werden können, müssen sie durch einen
iterativen Lernprozess auf einen Datensatz trainiert werden. Dieser Prozess zielt darauf ab, die Fehlerabweichung
zwischen der vorhergesagten Ausgabe des Netzwerks und der tatsächlich gewünschten Ausgabe zu minimieren.
Effektives Training neuronaler Netze erfordert die Einhaltung mehrerer Best Practices und Vermeidung einiger Tü-
cken. Die hier durchgeführten Prozesse können als Teile der Maßnahmen E:.E1 und (s. Kapitel EB) betrachtet
werden.
Beispielsweise tritt Overfitting (Überanpassung) auf, wenn ein ML-Modell die Trainingsdaten auswendig lernt
und somit die Fähigkeit verliert, auf neuen, unbekannten Daten korrekte Vorhersagen zu treffen. Dies passiert, wenn
das Modell irrelevante Muster aus den Trainingsdaten erfasst und diese Muster nicht auf andere Daten verallgemei-
nert werden können. Overfitting beeinträchtigt die Performanz unter Real-Bedingungen (s. Kapitel ], Maßnahme
ER.
Um das Ausmaß des Overfitting abzuschätzen, werden Daten in ein Trainings- und Validierungs- und Testset
aufgeteilt (s. International Standard ISO/IEC IS 22989 Kapitel 5.11.8 [BA]). Das Trainingsset wird verwendet, um das
Modell zu trainieren. Die Validierungsdaten werden während und nach dem Training verwendet, um Hyperparame-
ter (z.B die Auswahl der Architektur) zu optimieren. Das Testset sind Daten, die das Modell während des Trainings
nicht gesehen hat. Es wird letztlich verwendet, um die Leistung des Modells zu evaluieren. Durch die Aufteilung
der Daten kann sichergestellt werden, dass die Genauigkeit eines Modells dem Einsatz unter Realbedingungen
entspricht.
Um Overfitting in Grenzen zu halten, ist es etablierte Praxis Datenaugmentierung anzuwenden. Dabei werden
die vorhandenen Trainingsdaten modifiziert oder umgeformt, um neue Variationen zu erzeugen. Häufig eingesetzte
Transformationen sind hier z.B. Drehen, Skalieren, Spiegeln oder Hinzufügen von Rauschen. Datenaugmentierung
hilft dabei, Overfitting zu reduzieren, indem es dem Modell mehr Beispiele aus verschiedenen Blickwinkeln und
Variationen bietet und somit robustere Muster antrainiert.
Transfer Learning ist eine Technik, bei der das Wissen eines vorab trainierten Modells auf eine neue, verwandte
Aufgabe angewendet wird. Dieses vortrainierte Modell wird in der Regel auf einen großen, genersichen Daten-
satz wie ImageNet [53] oder COCO [ET] trainiert und anschließend auf den kleineren Zieldatensatz für die neue
Aufgabe geringfügig angepasst. Anstatt bei Null anzufangen, nutzt das Modell die gelernten Darstellungen aus
der ursprünglichen Aufgabe und passt sie anhand der neuen Daten an. Transfer Learning kann erheblich Zeit und