99
wurde nur der dritte Koeffizient verwendet, da die ersten beiden wesentlich mehr Rechenzeit
als der dritte verbrauchten. Um für die Berechnung der Korrelation Paare von Vektoren zu
bestimmen, wurde zuerst die Strategie einer Erweiterung eines bereits selektierten Datensatzes
verfolgt, der zu Beginn nur aus einem einzigen Vektor besteht. Das Verfahren wurde schon
im Rahmen der Ausreißererkennung im Detail beschrieben (Kap.4.2.2). Dabei konnte die
gewünschte Anzahl an Lernvektoren nur indirekt über die schon erwähnte vorzugebende
Grenze des Korrelationskoeffizienten und die Anzahl damit auch nur ungefähr erzielt werden.
Bei diesem Selektionsverfahren mit Hilfe der Korrelation waren drei Teilstrategien möglich:
Durchlaufen der geordneten Menge aller Zeitmustervektoren vom ersten bis zum letzten
Zeitmustervektor, Durchlaufen in umgekehrter Richtung und zufälliges Durchlaufen dieser
Menge. In Kap.4.2.2 wurde die Variante mit der ersten Teilstrategie beschrieben.
Während der Entwicklung des Selektionsverfahrens wurde immer wieder der Vorhersage
fehler der Kohonen-Netze berechnet, die mit Lernvektoren trainiert wurden, die mit dem
gerade aktuellen Selektionsverfahren selektiert worden waren. Kohonen-Netze, deren Lern
vektoren mit Hilfe des Korrelationsverfahrens selektiert worden waren, erbrachten immerhin
einen kleineren Vorhersagefehler als Netze, deren Lernvektoren mit Hilfe des verworfenen
Selektionsverfahrens mittels maximalen Abstands selektiert worden waren. Entscheidender
Vergleichsmaßstab aber war der Vorhersagefehler des Wasserstandsvorhersagedienstes. Die
Herausforderung dieser Arbeit war, den Vorhersagefehler der Kohonen-Netze so weit zu
senken, daß der Vorhersagefehler des Dienstes erreicht und wenn möglich unterboten werden
würde.
Um den Vorhersagefehler der Kohonen-Netze zu senken, wurden ein anderes Informa
tionsmaß und eine andere Strategie eingeführt. Als neues Informationsmaß wurde die L 2 -
Norm, die euklidische Distanz gewählt. Sie besitzt gegenüber dem Pearson’sehen Korrela
tionskoeffizienten den Vorteil, daß sie nicht nur die relative Ähnlichkeit zweier zeitlicher
Verläufe von Messungen berücksichtigt (z.B. gleichmäßig ansteigend), sondern auch die
absolute Ähnlichkeit, d.h. auch die unterschiedlichen Höhen, auf denen sich die relativ
ähnlichen Verläufe abspielen. Außerdem entsteht durch die Wahl der euklidischen Distanz als
Informationsmaß eine gewisse Verwandtschaft zu dem Algorithmus der Kohonen-Netze. Es
wurde angeregt, die allgemeineren L p -Normen zu testen mit p e 1 [Bandelt, tel. Komm.]. Um
der Verwandtschaft mit den Kohonen-Netzen willen, hätte auch der Algorithmus dieser Netze
entsprechend geändert werden müssen. Es hätte ein p gesucht werden müssen, das für die
verwendeten Daten optimal im Sinne eines minimalen Vorhersagefehlers der Kohonen-Netze
gewesen wäre. Das hätte aber den Umfang dieser Arbeit gesprengt.
Als eine neue Strategie wurde eine Reduktion der geordneten Menge aller Zeitmustervek
toren in Angriff genommen. D.h. im Vergleich zur ersten Strategie, mit der ein zu Beginn
kleiner Datensatz systematisch vergrößert wurde, wurde der umgekehrte Weg beschritten. Die
geordnete Menge aller Zeitmustervektoren wurde solange systematisch verkleinert, bis die ge
wünschte Anzahl an Lernvektoren übrig blieb. Im Gegensatz zum Korrelationsverfahren
wurden mit der neuen Strategie sämtliche Vektoren gleichberechtigt behandelt. Beim
Korrelationsverfahren dagegen brachten die anfangs begutachteten Vektoren die meiste
Information. Die später begutachteten Vektoren hatten kaum noch eine Chance, in den
selektierten Datensatz aufgenommen zu werden. Außerdem konnte mit der neuen Strategie
im Gegensatz zum Korrelationsverfahren die gewünschte Anzahl an Lernvektoren genau
eingehalten werden. Die Möglichkeit, die Anzahl der Lernvektoren frei wählen zu können,
beruhte auf dem Wunsch, die Kohonen-Netze flexibel an die Rechnerressourcen anpassen zu
können. Wenn bei steigender Anzahl von Lernvektoren der Vorhersagefehler der Kohonen-
Netze sinken würde (Kap.5.3), wäre dadurch das Argument gewonnen, daß die Wasserstands-