69
4.2. Vorbereitung
In Kap.3.3.3 wurde darauf hingewiesen, daß der Datenvorbereitung (u.a. der Datenvorver-
arbeitung) ein breiterer Raum gewidmet werden muß. Die Vorbereitung wird in diesem
Abschnitt beschrieben. Er ist stark mit den beiden folgenden Abschnitten der Selektion der
Daten (Kap.4.3) und des Lernverfahrens (Kap.5.1) verwoben. In Kap.5.1 wird beschrieben,
warum die Größe der Kohonen-Netze von der Anzahl der Eingangssignale bzw. der Lernvek
toren abhängig gemacht wurde. Es wurde eine lineare Abhängigkeit gewählt, d.h. eine direkte
Proportionalität zwischen der Anzahl Neuronen und der Anzahl Lernvektoren. Das hat zur
Folge, daß, je größer die Anzahl der Lernvektoren gewählt wird, desto größer die Kohonen-
Netze werden. Sie können so groß werden, daß eine herkömmliche Workstation den Lernvor
gang nicht mehr in akzeptablem Zeitrahmen bewältigen kann. Aus diesem Grund ist eine
Reduktion der Daten erforderlich. Dabei wird u.a. wiederum das Konzept der Repräsentativi
tät berücksichtigt.
Aus den Basisdaten (Kap.4.1) werden alle Vektoren eines vorgegebenen Zeitmusters
erzeugt (Zeitmustervektoren), die aufgrund des Meßabstands und der Länge der Zeitreihen
maximal möglich sind. Dabei werden die Zeitreihen in Richtung zunehmender Zeit durch
laufen. Die resultierende Menge aller möglichen Zeitmustervektoren ist somit zeitlich
geordnet (Zeitmustervektormenge). Nach [Anders 93] können Zeitmustervektoren auch mit
"m-histories" bezeichnet werden und die Zeitmustervektormenge mit "umgebender Dimension
M". Um der Verständlichkeit willen werden die unterstrichenen Begriffe bevorzugt. Die
Länge der Zeitmustervektoren ist je nach Zeitmuster gleich oder ungleich der effektiven
Musterlänge (Kap.4.2.2 und Kap.4.3). Nachdem die Basisdaten als Zeitmustervektormenge
organisiert sind, wird aus dieser Menge eine Untermenge (oder sub-sample) an Lernvektoren
selektiert (Kap.4.3).
Diese Untermenge muß aus Gründen, die in diesem Abschnitt dargelegt werden, einer
Vorverarbeitung (bzw. Normierung) unterzogen werden. Der eigentliche Zweck dieser Proze
dur ist es, die Werte der Komponenten der Lern- bzw. Eingabevektoren vergleichbar zu
machen [Ultsch 91a], Die Vorverarbeitung geschieht für jede Vektorkomponente separat und
muß in umgekehrter Reihenfolge der einzelnen Teilschritte auch als Nachbearbeitung auf die
Ausgabe, d.h. die Vorhersage der neuronalen Netze, angewandt werden. Dabei kann es
geschehen, daß die Berechnungen nicht durchführbar sind. Während der Vorverarbeitung
werden bestimmte statistische Parameter berechnet, die auch für die Nachbearbeitung benötigt
werden. Diese Parameter sind sehr stark auf die Verteilung der jeweiligen Vektorkomponente
zugeschnitten und können daher u.U. nicht auf Vorhersagen angewandt werden, die von
dieser Verteilung sehr abweichen. Darum ist es sinnvoller, die statistischen Parameter der
Vorverarbeitung nicht auf Basis einer verhältnismäßig kleinen Anzahl selektierter Daten zu
berechnen, sondern auf der Basis einer größeren Anzahl, nämlich sämtlicher zur Verfügung
stehenden Daten (auf Basis der umgebenden Dimension M). Da aber jede Komponente der
Zeitmustervektoren aus fast allen Werten der jeweiligen Originalzeitreihe besteht, folgt
daraus, daß die Parameter der Vorverarbeitung nicht aus den jeweiligen Vektorkomponenten
der selektierten Lernvektoren, sondern aus den Originalzeitreihen selbst berechnet werden
können, vorausgesetzt: effektive Musterlänge m « n = Länge der Zeitreihen. Damit ist für
eine maximale Repräsentativität der statistischen Parameter gesorgt. Dadurch können extreme
Parameter vermieden werden, so daß die Nachbearbeitung höchstwahrscheinlich in allen
Fällen durchführbar sein wird (im Forecastmodus des Wasserstandsvorhersagedienstes). Al
lerdings wird dabei vorausgesetzt, daß die statistischen Parameter auf die unbekannte Zukunft
anwendbar sind. Anwendbar sind sie nur dann, wenn die Arbeitshypothese, daß aus der Ver