45
deren Darstellungsfehler von der Wahl der Architektur und der Initialisierung abhängig sind,
spricht manches für diese Argumentation. Da aber genau diese Abhängigkeiten bei den
Kohonen-Netzen (Kap.3.6) eine im Vergleich zu den Backpropagation-Netzen eher unterge
ordnete Rolle spielen, würde es nicht so sinnlos sein - und wird darum vorgeschlagen -, solch
einen Lernabbruch auf die Kohonen-Netze anzuwenden. Da auch diese Anwendung nach
Kenntnis des Autors bis jetzt noch nicht durchgeführt wurde, wird sie in Kap.5 als Ergebnis
beschrieben. Darum werden nachfolgend Kriterien beschrieben, die bisher schon bei einem
Lernabbruch von Backpropagation-Netzen angewandt wurden.
Um die Lernphase an geeigneter Stelle abzubrechen, kann der Darstellungsfehler z.B. auf
die Norm seines Gradienten (Steigung der Fehlerkurve) hin verfolgt werden. Die Lernphase
kann z.B. dann abgebrochen werden, wenn der Gradient kleiner als eine vorgegebene
Konstante ist [de Groot 93]. Für den Lernabbruch können zusätzlich zu den Validationsdaten
auch die Trainingsdaten berücksichtigt werden [Weigend et al. 90a], Dazu muß ein weiterer
Fehler eingeführt werden. In Kap.2.2.1 ist der Darstellungsfehler auf Basis des Validations
datensatzes definiert worden. Es ist aber genauso gut möglich, ihn auch auf Basis des Trai
ningsdatensatzes zu definieren. Im Sinne des in Kap.2.2.1 erwähnten Beispiels (des multire
gressiven Zusammenhangs von Stau und Wind) kann somit mit Hilfe von Winddaten aus
dem Trainingsdatensatz ein Stau berechnet werden. Dieser Stau wird mit dem Stau aus dem
Trainingsdatensatz verglichen. Die Differenz zwischen beiden Stauwerten ist ein Maß für den
Darstellungsfehler auf Basis der Trainingsdaten. Zur Unterscheidung wird der bisher verwen
dete Begriff des Darstellungsfehlers auf Basis des Validationsdatensatzes ab hier als Valida
tionsfehler bezeichnet und der neu eingeführte Darstellungsfehler auf Basis des Trainings
datensatzes als Trainingsfehler. Beide Fehler können nach jeder Lernepoche berechnet und
somit als eine Funktion von der Anzahl der Lernepochen aufgefaßt werden.
Es ist zu beobachten, daß nicht nur der Validations-, sondern auch der Trainingsfehler
während des Lernens abnehmen. Der Validationsfehler nimmt im Verlauf der Lernphase
immer weniger ab, bis er entweder ungefähr konstant bei einem Wert bleibt oder nach einem
Minimum wieder ansteigt. Der Trainingsfehler dagegen nimmt weiterhin ab und strebt gegen
Null. Wenn dieser Fehler Null erreicht hat und somit das Netz die trainierten Vektoren
praktisch hundertprozentig genau rekonstruieren kann, hat das Netz begonnen, auswendig zu
lernen (zeitliches "overfitting" bzw. "tiberlernen"). Gleichzeitig hat es aber auch seine Fähig
keit zur assoziativen Abfrage bzw. seine Fähigkeit zur Verallgemeinerung verloren. Dies
kann durch das Abbrechen der Lernphase verhindert werden.
Um ein Kriterium für den Lernabbruch zu erhalten, können der Validations- und der Trai
ningsfehler z.B. linear miteinander kombiniert werden. Während der Lernphase kann nach
einem Minimum des kombinierten Fehlers gesucht werden. Um beurteilen zu können, ob bei
einer bestimmten Anzahl von Lernepochen ein Minimum des kombinierten Fehlers vorliegt,
muß über das Minimum hinaus gelernt werden. Damit der Netzzustand beim Minimum durch
das Weiterlernen nicht verloren geht, müssen die Gewichte im Verlauf der Lernphase bei
Erreichen eines neuen Minimums - die Fehler nehmen nicht monoton von Lernepoche zu
Lernepoche ab - jeweils zwischengespeichert werden, bis ein zeitlich-globales Minimum
erreicht ist [Anders 93]. Dieses Minimum wird zeitlich-global genannt, um es von dem
globalen Minimum der Fehleroberfläche abzugrenzen.