monoton verhalten (siehe Abb.5.1), entstehen während des Lernverlaufs mehrere zeitlich
lokale Minima. Da aber erst im späteren Verlauf beurteilt werden kann, ob ein zeitlich
lokales Minimum das zeitlich-globale ist und somit den Abbruchpunkt repräsentiert, sollten
die Netzzustände zu dem Zeitpunkt des aktuell kleinsten Minimums zwischengespeichert
werden (Kap.3.5.3). Falls sich dieses Minimum als zeitlich-global erweist, d.h. falls im
weiteren Verlauf der Lernphase kein kleineres Minimum mehr auftritt, kann auf den gespei
cherten Netzzustand des betreffenden Zeitpunktes zurückgegriffen werden. Dieser Netzzu
stand wird dann als Endzustand angesehen, mit dem definiert wird, daß das Netz nun
ausgelernt hat. Um aber sicher zu gehen, daß im weiteren Verlauf der Lernphase kein
kleineres Minimum mehr auftritt, müßte das Netz grundsätzlich bis zum Ende der Lernphase
durchlaufen, deren Länge durch n Lmax definiert ist. Damit würde aber dieses Lernabbruch
kriterium unnötig viel Rechenzeit kosten.
Eine weitere Schwierigkeit besteht darin, daß die gewählten heuristischen Gleichungen
leider nicht in allen Fällen für die Existenz eines Minimums sorgen können. Es ist in
manchen Fällen möglich, daß sich der Validationsfehler von einem bestimmten Zeitpunkt der
Lernphase an ungefähr konstant auf einem zeitlich globalen minimalen Wert hält (s.o.). Die
punktuelle Definition eines Minimums kann daher nicht mehr angewandt werden. Auch in
diesem Fall müßte bis zur maximalen Länge der Lernphase gelernt werden, um im nachhin
ein das Minimum zu bestimmen. Das würde wiederum unnötig viel Rechenzeit kosten.
Um die Rechenzeit zu reduzieren, wird folgender Ausweg vorgeschlagen. Zusätzlich zum
Validationsfehler kann auch der Trainingsfehler berücksichtigt werden. Die beiden Fehler
können zwar linear miteinander kombiniert werden, wie in Kap.3.5.3 beschrieben wurde. Es
kann aber auch die allgemeine Eigenschaft ausgenutzt werden, daß der Trainingsfehler
während der Lernphase kontinuierlich bis auf Null abnimmt. Vergleicht man die Fehlerkurven
der Validations- und Trainingsfehler miteinander, so gibt es während der Lernphase einen
Zeitpunkt, an dem beide Fehler beginnen, mehr und mehr auseinanderzuklaffen (Abb.5.1).
Diese Eigenschaft kann für ein Lernabbruchkriterium ausgenutzt werden. Die Lernphase
könnte z.B. dann abgebrochen werden, wenn der Trainingsfehler im Verlauf dieser Phase
mehr als eine Größenordnung kleiner als der Validationsfehler geworden ist. Im allgemeinen
wird unter Größenordnung eine Stelle im Dezimalsystem, d.h. ein Faktor 10 verstanden.
Wenn die Lernphase aber erst bei solch einem Zeitpunkt abgebrochen wird, hat das zeitliche
"overfitting" schon angefangen. Ein rigoroseres Kriterium ist es, die Lernphase bereits dann
abzubrechen, wenn der Trainingsfehler (mrmse T oder mae^ je nach Zeitmuster) kleiner als die
Hälfte des Validationsfehlers (mrmse v oder mae v wiederum je nach Zeitmuster) geworden ist,
d.h. wenn:
mrmse r < Vi mrnise v oder mae T < Vi mae v . (5.4)
Es wird vorgeschlagen, zusätzlich zur Suche nach einem zeitlich globalen Minimum dieses
Kriterium [5.4] zu verwenden und es mit "cut-off'-Abbruchkriterium [Paul, pers. Komm.] zu
bezeichnen. Diese Bezeichnung wird z.B. in der Signalverarbeitung verwandt. Spektren
können bei bestimmten Frequenzen abgeschnitten werden (cut-off-Frequenzen), um dadurch
Hoch- und Tiefpaßfilter zu realisieren [Schlittgen et al. 94].
Einerseits ist das zeitlich-globale Minimum des Validationsfehlers ein sinnvolleres Indiz
für das zeitliche "overfitting" als der cut-off-Abbruchpunkt, andererseits funktioniert das cut-
off-Kriterium im Gegensatz zum Minimum in jedem Fall. Das cut-off-Kriterium funktioniert
dann immer, wenn der Trainingsfehler innerhalb der vorab definierten Länge der Lernphase
die Null erreicht. Daß dies für jeden Fall gilt, dafür sorgen wiederum die heuristischen Glei