98
zeitreihe ist [Anders 93] (genau genommen: m (n - m + 1) ). Das gilt aber nur, wenn keine
Lücken in den Zeitreihen vorhanden sind. Da aber vorhandene Lücken nicht in allen Fällen
gefüllt wurden, aber die Vektoren lückenlos sein müssen, ist die geordnete Menge aller
Zeitmustervektoren durch den resultierenden Verschnitt entsprechend kleiner. (Kap.4.2.2).
Das Prinzip dieser Menge läßt sich ohne weiteres auf den multivariaten Fall übertragen.
Aus jeder der beteiligten Zeitreihen werden Zeitfenster ausgeschnitten, die unterschiedlich
groß sein können. Mittels eines vorgegebenen multivariaten Zeitmusters wird dabei darauf
geachtet, daß die pro Reihe ausgeschnittenen Zeitfenster zeitlich aufeinander abgestimmt sind.
Sie werden anschließend zu einem Gesamtvektor zusammengesetzt. Es hängt von der Länge
der einzelnen Zeitfenster, von ihren Zeitversätzen relativ zu einem gemeinsamen Bezugs
zeitpunkt und von den Längen der Überlappungszeiträume ab, ob die Länge L des Gesamt
vektors, d.h. die Anzahl sämtlicher Zeitpunkte aller Indikations- und Prognosezeiträume,
größer oder kleiner oder gleich der effektiven Musterlänge ist (Abb.2.7).
Bei der Selektion der Daten muß zwischen der Selektion der Trainingsvektoren und der
Selektion der Validations- und Vorhersagevektoren unterschieden werden. Die Trainings
vektoren wurden mit Hilfe der beiden eingangs erwähnten Verfahren aus der geordneten
Menge aller Zeitmustervektoren selektiert, die aus denjenigen Zeitreihen organisiert wurde,
die den Zeitraum von 1985 bis 1992 umfassen. Die Validations- und Vorhersage Vektoren
wurden aus den Zeitreihen selektiert, die den Zeitraum des Vergleichsjahres 1993 umfassen.
Für Zeitmuster, die einen Prognosezeitraum von mehr als einem Zeitpunkt besitzen, wurde
für das Vergleichsjahr 1993 ein Schema eingeführt, das die Vorhersage im Wasserstands
vorhersagedienst simuliert. Dieses Schema beruht im wesentlichen auf dem Prinzip des
gleitenden Zeitfensters. Die Zeitfenster überlappen sich zwar jeweils um sechs Stunden, die
für die Berechnung der Vorhersagefehler relevanten Zeitpunkte der Zeitfenster jedoch
überlappen sich nicht, sondern schließen direkt aneinander an. Für das Schema waren daher
zusätzlich noch die letzten sechs Stunden des Jahres 1992 notwendig (Kap.2.4.3). Von diesen
sechs Stunden, die für die Berechnung der Vorhersagefehler sowieso nicht relevant waren,
abgesehen, waren die Validations- und Vorhersagevektoren von den Trainings Vektoren strikt
getrennt. Dadurch ist für eine objektive Beurteilung der Vorhersagefähigkeit der Kohonen-
Netze gesorgt. Die Selektionsverfahren, die auf die Trainings Vektoren angewandt wurden,
wurden nicht auch auf die Validations- und Vorhersagevektoren angewandt, da sonst der
Vergleich mit den Vorhersagen des Wasserstandsvorhersagedienstes nicht mehr möglich
gewesen wäre.
Das selbsterfundene Selektionsverfahren wurde auf Basis der geordneten Menge aller
Zeitmustervektoren entwickelt. Als Zeitmuster diente der Einfachheit halber das klassifizie
rende Zeitmuster. Es stand das Ziel vor Augen, einen Datensatz zu schaffen, in dem die
einzelnen Lemvektoren möglichst unabhängig voneinander sind. D.h. jeder Lernvektor sollte
seinen Beitrag an Information liefern. Es sollte gewährleistet sein, daß die gesamte relevante
Information der geordneten Menge aller Zeitmuster berücksichtigt wird. Es stellte sich heraus,
daß die Kohonen-Netze sehr kritisch auf fehlende Information in den selektierten Lernvekto
ren reagierten. Darum war große Sorgfalt bei der Entwicklung des Selektionsverfahrens
erforderlich.
Die Suche nach einem entsprechenden Verfahren wurde von dem ersten Teilziel der
Vorverarbeitung, der Elimination von Korrelationen, inspiriert. Es entstand ein Verfahren, das
jeweils für ein Paar von Lernvektoren die Korrelation berechnet, die als ein Informationsmaß
gewertet wurde. Es wurden drei verschiedene Korrelationskoeffizienten getestet: Zwei Koeffi
zienten, die auf dem Rang der Daten beruhen (Kendall’s T und Spearman’s p) und einer auf
der Basis herkömmlicher Statistik (Pearson’scher Korrelationskoeffizient) [Press et al. 91]. Es