106
eine feste Partition nicht mehr unbedingt minimal, aber in der Nähe des Minimums. D(C) ist
umso näher am Minimum, je ähnlicher diese Vektoren den Zentrumsvektoren sind. Diese
Vektoren, die den Zentrumsvektoren der Endpartition am ähnlichsten sind, stellen die
gewünschten Lernvektoren dar und können von den Kohonen-Netzen angelernt werden. Je
höher die Anzahl der Lernvektoren gewählt wird, desto kleiner wird D(C). D(C) = 0, wenn
die Anzahl der Lernvektoren mit der Anzahl der Zeitmustervektoren übereinstimmt. Diese
Eigenschaft des Varianzkriteriums könnte als ein erster Hinweis daraufhin gewertet werden,
daß die Erwartung sinkender Vorhersagefehler der Kohonen-Netze, wenn die Anzahl Lern
vektoren erhöht wird, nicht ungerechtfertigt ist, solange die Lernvektoren mit Hilfe des
modifzierten Minimaldistanz-Verfahrens selektiert werden (s.o.). Die bei der Vorstellung des
zirkularen Gruppenreduktionsverfahrens eingeführte mittlere euklidische Distanz [4.7b] sinkt
zwar auch mit höherer Anzahl Lern Vektoren, aber weniger stark als das Varianzkriterium.
Daher ist die obige Erwartung in diesem Fall weniger gerechtfertigt.
In Kap.4.2 wurden die Voraussetzungen beschrieben, die die Lernvektoren für das
Training der Kohonen-Netze erfüllen müssen. Die Komponenten der Vektoren müssen ver
gleichbar sein und die Anforderung einer Gauß’schen Zufallsvariablen erfüllen. D.h. die
Komponenten müssen normalverteilt sein. Bisher wurden nur die Verteilungen der gesamten
Zeitreihen diskutiert. Darum wird an dieser Stelle gezeigt werden, ob und wie sich die
Verteilungen der Komponenten durch die Selektion verändern. In Abb.4.9 sind für einen
Beispielvektor von 20 Komponenten die Verteilungen dargestellt, die jeweils auf 100 Werten
beruhen. D.h. es wurden 100 Lernvektoren selektiert. Zwar sind die Verteilungen unterschied
lich, tragen insgesamt aber alle den monomodalen Charakter der Normalverteilung. Somit
läßt sich sagen, daß das Minimaldistanz-Selektionsverfahren in erster Näherung verteilungs
erhaltend ist.
Auch in diesem Verfahren wird grob gesehen die euklidische Distanz als Ähnlichkeitsmaß
verwendet, und das in dreifacher Hinsicht: 1. Bei der Bestimmung der Vektoren, die den
Zentrumsvektoren am ähnlichsten sind (Schritt lb), 2. bei der Berechnung einer neuen
Partition (Schritt 2) und 3. im Varianzkriterium [4.10]. Es ist nicht ganz die euklidische
Distanz, da keine Wurzel gezogen wird. Da nur Minima gesucht werden, kann man sich bei
den Schritten lb und 2 von [4.12] die Wurzel sparen und das Verfahren somit etwas be
schleunigen. Das Eingehen der quadratischen Abweichungen zweier Vektoren in das Varianz
kriterium reicht aber aus, um damit eine gewisse Verwandtschaft mit dem Selektionsver
fahren der zirkularen Gruppenreduktion und damit auch mit dem Algorithmus der Kohonen-
Netze festzustellen (siehe Einleitung zu Kap.4.3).
Alle beiden beschriebenen Verfahren, das der zirkularen Gruppenreduktion [4.7] und das
modifizierte Minimaldistanz-Verfahren [4.12], können auf alle eingeführten Zeitmuster ange
wandt werden (Kap.2.2.3). Die Bezeichnung "modifiziert" wird im folgenden weggelassen.
Bei der Beschreibung der Kohonen-Netze wurde eine Erweiterung der Metrik der eukli
dischen Distanz vorgestellt, die in Abhängigkeit vom jeweils gewählten Zeitmuster unter
schiedlich wirkt (Kap.3.6.4). Da die Erweiterung sich nur auf den Radikanden unter der
Wurzel bezieht, kann diese gleichbehandelnde Metrik genauso gut in den beiden Selektions
verfahren verwandt werden, wodurch die Verwandtschaft dieser Verfahren mit den Kohonen-
Netzen gefördert wird.
Aufgrund der bereits beschriebenen Folgerungen, die sich aus der Metrik der Kohonen-
Netze für die Daten ergeben, müssen die Zeitmustervektoren vor der Selektion vorbereitet
werden. Von der Datensäuberung und der Trendelimination abgesehen, die auf die Zeitreihen
angewandt wurden, müssen die Zeitmustervektoren, die bei gegebenem Zeitmuster aus den
Zeitreihen gebildet wurden, der Vorverarbeitung unterzogen werden. Dazu muß jede Kom-