44
größert werden. Beide Wege, die Reduktion der Komplexität und die Vergrößerung des Trai
ningsdatensatzes weisen bereits auf einen Zusammenhang zwischen der Netz-Architektur, d.h.
der Anzahl der versteckten Neuronen und der Größe des Trainingsdatensatzes hin. Es gibt
statistische Argumente, die dafür sprechen, die Anzahl der Netzgewichte proportional zur
Anzahl der Trainings Vektoren zu wählen [Weigend et al. 90a], Die Beziehung zwischen
beiden Anzahlen wird weiterhin durch geometrische Überlegungen (Hyperebenen) gestützt
[Mehrotra et al. 91]. Es wird vorgeschlagen, diesen Zusammenhang bei der Anwendung der
Kohonen-Netze auf die Wasserstandsvorhersage auszunutzen. Da der Zusammenhang nach
Kenntnis des Autors bisher nicht bei diesen Netzen verwendet wurde, wird diese Nutzung in
Kap.5 als Ergebnis beschrieben.
Zusätzlich zur Abhängigkeit der Konvergenz von der Netzarchitektur und dem Trainings
datensatz wird beobachtet, daß der Darstellungsfehler der ausgelernten Backpropagation-
Netze mit der zufällig gewählten Initialisierung zu Beginn der Lernphase um ungefähr 10%
variiert [de Groot 93], [Weigend et al. 90b]. Anscheinend läuft das Netz bei Initialisierungen
mit unterschiedlichen Sätzen von Zufallszahlen in verschiedene lokale Minima. Um die Ab
hängigkeit des Darstellungsfehlers von der zufällig gewählten Initialisierung zu reduzieren,
wurde ein Backpropagation-Netz z.B. mit einem linearen Modell der Trainingsdaten in
itialisiert. Das Modell basiert auf der principal component analysis (bzw. EOF-Analyse,
Kap.2.3.3) [de Groot 93]. Um ein optimales Training und auch ein schnelles Lernen dieser
Netze zu erreichen, können sie auch in Abhängigkeit von der Varianz der Trainingsdaten und
. der Anzahl der Eingabe- und versteckten Neuronen initialisiert werden [Drago et al. 92].
Das globale Minimum der Fehleroberfläche kann aber auch mit einem anderen Minimum
in Zusammenhang gebracht werden. Es ist möglich, nach jeder Lernepoche den Darstellungs
fehler auszurechnen. Es ist zu beobachten, daß sich dieser Fehler während der Lernphase
verringert. Er kann ab einer bestimmten Lernepoche ungefähr konstant bleiben oder auch
wieder leicht ansteigen. Der leichte Anstieg des Darstellungsfehlers ist ein Zeichen dafür, daß
das Netz seine Fähigkeit der Generalisierung bzw. der assoziativen Abfrage verliert (Kap.3.2)
und beginnt, das Rauschen der Trainingsdaten zu adaptieren [Zhang et al. 93]. Dieses
Phänomen kann auch so umschrieben werden, daß das Netz beginnt, "auswendig zu lernen".
Diese Beobachtung erinnert an das schon erwähnte "overfitting" (Kap.2.3.1). Es ist aber ein
"overfitting" während des Trainings einer bestimmten Architektur. Zur Abgrenzung sei es mit
zeitlichem "overfitting" oder auch mit "überlernen" bezeichnet.
Dieser konstante oder auch minimale Darstellungsfehler - wobei "minimal" in diesem Fall
auf den Verlauf des Fehlers während der Lernphase bezogen und durch den leichten Wieder
anstieg definiert ist - hat mit dem globalen Minimum der Fehleroberfläche auf den ersten
Blick nichts zu tun. Allerdings kann dieser minimale Darstellungsfehler für eine Verbes
serung der Netzvorhersagen ausgenutzt werden. Es kann versucht werden, durch verschiedene
Kriterien das Minimum des Darstellungsfehlers während der Lernphase zu finden und das
Lernen an der Stelle dieses Minimums, d.h. bei einer bestimmten Anzahl von Lernepochen,
abzubrechen, d.h. die Lernphase kurzerhand zu beenden. Natürlich ist es dabei immer noch
möglich, daß die Minima der Darstellungsfehler bei unterschiedlichen Architekturen und
Initialisierungen der Netze verschieden sind, da sie zu verschiedenen lokalen Minima der
Fehleroberfläche gehören können.
Masters weist darauf hin, daß ein Lernabbruch (siehe z.B. [Hergert et al. 92]) nur die
Symptome, aber nicht die Ursachen der Krankheit (des "overfitting") behandelt. Es sei besser,
zur Verbesserung des Algorithmus’ erstens die versteckten Neuronen zu reduzieren oder die
Größe und Verschiedenartigkeit des Trainingsdatensatzes zu erhöhen und zweitens die In
itialisierung zu verbessern [Masters 93]. Im Zusammenhang mit Backpropagation-Netzen,