43
nicht verloren geht und wie weit andererseits das Netz wieder lernfähig gemacht werden
muß, damit die neue Information ihren Platz findet. Es ist versucht worden, diesen als
Plastizitäts-Stabilitäts-Dilemma bezeichneten Konflikt durch die ART-Modelle (.Adaptive
Resonanz Theorie) zu lösen [Brause 91]. Diese Modelle sind ebenfalls für das Realzeit
Lernen geeignet. Für die Anwendung der neuronalen Netze auf die Wasserstandsvorhersage
erscheint es jedoch günstiger, die bisherige Datenbasis zusammen mit den neuen aktuellen
Daten jahresweise wieder neu anzulernen. Der Aufwand dafür erscheint nicht zu groß.
3.5.3. Konvergenz
Backpropagation-Netze weisen eine Reihe von Problemen auf. Dazu gehört besonders die
Frage nach der Konvergenz bzw. die Frage, ob ein Backpropagation-Netz optimal gelernt hat.
Die Konvergenz wird beeinflußt durch die Wahl der Netz-Architektur, der Trainingsdaten
(damit wieder durch die Wahl der Netz-Architektur) und der Initialisierung der Netze.
Für jeden Zustand der Backpropagation-Netze, der durch die Netzgewichte eindeutig
definiert ist. kann eine Fehlerfunktion definiert werden. Diese Funktion kann über dem n-
dimensionalen Raum der Netzgewichte, wobei n der Anzahl der Gewichte entspricht,
aufgetragen werden. Auf diese Weise entsteht eine (n+lj-dimensionale Fehleroberfläche.
Diese Oberfläche kann lokale Minima aufweisen. Während einer Lernphase ist es möglich,
daß die Gewichte so verändert werden, daß der Netzzustand in solch ein lokales Minimum
hineinläuft, dort nicht mehr herauskommt und somit das globale Minimum nicht findet
[Ultsch 91a). Angewandt auf die Vorhersage kann diese Fehlerfunktion mit dem Darstel-
lungs- und dem Vorhersagefehler identifiziert werden, die im Falle univariater Zeitmuster
gleich sind (Kap.2.2).
Die Wahl der Netz-Architektur und damit besonders der Anzahl der versteckten Neuronen
(der Freiheitsgrade) hat einen gravierenden Einfluß auf den Darstellungsfehler der Netze. Es
ist zu beobachten, daß dieser Fehler beim Übergang zu größeren Architekturen (zu mehr ver
steckten Neuronen) bei gleichem Trainingsdatensatz größer wird. Das entspricht dem "over-
fitting", das beim Übergang zu statistischen Modellen höherer Ordnung auftritt (Kap.2.3.1)
[Rehkugler et al. 92]. Es gibt zwar eine theoretische Abschätzung der Anzahl versteckter
Neuronen. Darüber, ob eine gewünschte Klassifikation im konkreten Fall lernbar ist. kann mit
Hilfe dieser Abschätzung aber keine Aussage gemacht werden [Ultsch 91a], Um gegen das
"overfitting" anzugehen, können zwei Wege beschritten werden. Erstens kann die Anzahl der
Freiheitsgrade bzw. der Neuronen und damit die Komplexität des Netzes reduziert, zweitens
kann der Trainingsdatensatz vergrößert werden [Zhang et al. 93].
Eine mögliche Strategie für den ersten Weg ist, mit einer Architektur zu beginnen, die für
die Trainingsdaten komplex genug ist. Würde die Anzahl Freiheitsgrade zu gering gewählt
werden, wäre das Netz überladen ("overload"). Dieses Phänomen kann auch so umschrieben
werden, daß das Netz Gelerntes wieder "vergessen" kann. Wird die Anzahl hoch genug
gewählt, kann die Komplexität während des Lernvorgangs mittels verschiedener Techniken
reduziert werden (selbstoptimierende Netze). Erstens kann man zur Fehlerfunktion einen
weiteren Term hinzuaddieren, der die Komplexität des Netzes "bestraft" (penalty terrn)
[Hergert et al. 92]. Dadurch werden manche Gewichte während des Lernens eliminiert
(weight elimination) oder deaktiviert (weight decay, Spezialfall der weight elimination).
[Weigend et al. 91]. Zweitens kann man das Netz zurechtstutzen (pruning). D.h. wenn das
Netz in ein lokales Minimum gelaufen ist, werden ein paar Gewichte entfernt, und anschlie
ßend wird weitergelernt. Das kann sich mehrere Male wiederholen [Hergert et al. 92].
Anders herum kann auch bei gleich bleibender Komplexität der Trainingsdatensatz ver-