90
In der Metrik der Kohonen-Netze, die im wesentlichen der euklidischen Distanz entspricht,
werden die Komponenten der Lernvektoren nicht direkt quadriert und summiert, sondern von
ihnen werden vorher die Komponenten der Gewichtsvektoren der Netze subtrahiert ([3.8] in
Kap.3.6.2). Die Gewichte werden im allgemeinen mit Werten eines Zufallsgenerators
initialisiert. Die Werte sind gleichverteilt und liegen im Bereich [0,1). Um der Gleichberech
tigung mit den Lernvektoren willen wäre es zwar angebracht, die gleichverteilten Zufalls
zahlen vor der Initialisierung noch in normalverteilte Zufallszahlen zu transformieren. Doch
für den weiteren Verlauf der Lernphase spielt es keine Rolle, ob die initialisierenden Zufalls
zahlen gleich- oder normalverteilt sind. Wichtig ist dabei nur ihr Wertebereich. Damit nicht
nur die Lernvektoren, sondern auch die zufällig initialisierten Gewichtsvektoren einen Einfluß
auf die L 2 -Norm nehmen können, ist zusätzlich zur Vergleichbarkeit der Zeitreihen unterein
ander auch eine Vergleichbarkeit der Zeitreihen mit den Zufallszahlen für die Initialisierung
der Gewichtsvektoren notwendig.
Um für die beschriebenen Vergleichbarkeiten zu sorgen, können die Zeitreihen jeweils z.B.
auf den Bereich [0,1] abgebildet werden. Diese Abbildung ist aber bezüglich des Werte
bereichs zu unflexibel und nimmt auf die Verteilung der Daten keine Rücksicht. Als Alterna
tive dazu können die Zeitreihen auch mit der in der Statistik geläufigen z-Transformation in
geeigneter Weise vereinheitlicht werden [Ultsch 91a], Die verschiedenen Vereinheitlichungs
verfahren wurden auf ihre Brauchbarkeit für die jeweiligen Netze untersucht. Es hat sich
gezeigt, daß oft mit der z-Transformation die besten Ergebnisse zu erzielen sind [Ultsch 91a].
Die z-Transformation oder auch Standardisierung [de Groot 93] kann eine Normalverteilung
in eine Standardnormalverteilung überführen. Für die z-Transformation werden Mittel- bzw.
Erwartungswert und Standardabweichung der Daten benötigt. Um der Konsistenz mit der
nichtlinearen Transformation zur Schiefereduktion willen werden auch hier nicht die her
kömmlichen Kenngrößen einer Verteilung auf Basis der Summation gewählt, sondern die
Kenngrößen auf Basis des Rangs. Als Analogon der explorativen Datenanalyse zum Erwar
tungswert wird der Median p verwendet. Als Analogon zur Standardabweichung wird die
empirische Standardabweichung ct eingeführt, die auf einer Normalverteilungsannahme und
den Angelpunkten ("hinges") basiert. Die Angelpunkte entsprechen in etwa den Quartilen,
d.h. den Quantilen mit a = 0.25 und a = 0.75. a ergibt sich aus dem Abstand der Angel
punkte ("h-spread") mit o = h-spread/1.349 [Hartung et al. 86]. Somit läßt sich die z-Trans-
formation auf Basis des Rangs wie folgt definieren:
ne = i = \,...n (4.3)
o
Die drei beschriebenen Transformationen (die Verschiebung des Wertebereichs mit Hilfe des
Minimums als Voraussetzung für die nichtlineare Transformation, die nichtlineare Trans
formation selbst und die z-Transformation) lassen sich auf folgende Weise zur gesamten
Vorverarbeitung zusammenfassen:
(xf 1 - cy - p
o
ln (jcf" -c)-p
o
für p ¥= 0
für p = 0
i n
(4.4)
Bei einer unimodalen Verteilung können drei Momente definiert werden. Das erste Moment