103
selektiert werden könnten: Learning Vector Quantization (Lernende Vektorquantisierung,
LVQ). [Kohonen 89]. Mit Hilfe der Vektorquantisierung werden Vektoren auf wenige "Kode
buch "-Vektoren reduziert, mit denen sich die Originalvektoren wieder mit einem bestimmten
Fehler rekonstruieren lassen. Es läßt sich ein Datenkompressionsfaktor definieren, der um so
besser ausfällt, je kleiner das Kodebuch gewählt werden kann [Ritter et al. 92]. Kohonen
entwickelte einen Algorithmus, der diese Vektorquantisierung lernen kann. Zwei Gründe
führten dazu, die LVQ als Verfahren für die Datenselektion abzulehnen. Ein Grund ist, daß
die Kodebuch-Vektoren mit keinem der Originalvektoren mehr identisch sind. Das wider
spricht dem Konzept der Repräsentativität, bei dem die selektierten Vektoren eine Unter
menge der Originalvektoren sind. Der zweite Grund wurde schon bei der Vorverarbeitung
vorgebracht (Kap.4.2.4). Auch in diesem Fall der Selektion erschien es etwas befremdlich,
zwar direkt keine Kohonen-Netze, aber immerhin einen Spezialfall dieser Netze auf die
Selektion von Lernvektoren für Kohonen-Netze zu verwenden. Dann hätten genauso gut die
Kohonen-Netze gleich mit allen Zeitmustervektoren trainiert werden können. Aber aus einem
bestimmten Grund, der in Kap.5.1 beschrieben ist, wurden dazu nicht alle Zeitmustervekto
ren, sondern nur eine Untermenge davon benutzt. Zur Bestimmung dieser Untermenge wurde
daher ein herkömmliches statistisches Verfahren verwendet.
Die Verfahren der Clusteranalyse werden in zwei Bereiche aufgeteilt: In Verfahren, die
disjunkt gruppieren, d.h. deren Cluster sich nicht überlappen und in Verfahren, die nichtdis
junkt und hierarchisch gruppieren. Die Verfahren benötigen Ähnlichkeits-, Distanz- und
Homogenitätsmaße [Bock 74]. Es werden Objekte in Abhängigkeit von ihrer Ähnlichkeit und
ihrer Distanz in verschiedene Gruppen zusammengefaßt. Bei den hierarchischen Verfahren
kann man zum großen Teil zwischen divisiven und agglomerativen Verfahren unterscheiden.
Divisive Verfahren gehen von einer einzigen Gruppe aus, zu der alle Objekte gehören. Diese
Gruppe wird Schritt für Schritt immer weiter geteilt, bis die Gruppenteilung z.B. aufgrund
spezieller Kriterien abgebrochen wird. Die agglomerativen Verfahren verlaufen genau in
Gegenrichtung. Sie gehen von einer Anzahl von Gruppen aus, die jede genau ein Objekt
enthalten und somit die Gruppenanzahl gleich der Objektanzahl ist. Diese Gruppen werden
nach und nach miteinander verschmolzen, bis der Gruppenverschmelzung auch hier aufgrund
spezieller Kriterien Einhalt geboten wird. Zu den agglomerativen Verfahren gehört z.B. die
Zentroidmethode. Mittels dieser Methode wurden z.B. im Rahmen von "Vorhersagestudien
in chaotischen Systemen und in der Praxis" Wetterlagen quantitativ klassifiziert. Dazu
wurden Zeitreihen des Bodenluftdrucks von vier verschiedenen Wetterstationen verwendet
[Ziehmann-Schlumbohm 94]. Somit stellt die Anwendung der Clusteranalyse auf Daten, die
für die Wasserstandsvorhersage relevant sind, nichts Ungewöhnliches dar.
Bei den hierarchischen Verfahren muß die Anzahl von Klassen zu Anfang nicht bekannt
sein. Mit Hilfe der Abbruchkriterien können sie eine Art "natürlicher" Clusterung in der
Menge der Objekte erkennen. Als Abbruchkriterium z.B. bei dem Zentroidverfahren kann
aber auch eine vorgegebene Klassenzahl dienen [Ziehmann-Schlumbohm 94]. Unter den dis
junkten Verfahren gibt es zwar auch solche Verfahren, bei denen die Klassenzahl nicht
bekannt sein muß. Die Aufgabe, Daten in eine als bekannt vorausgesetzte "wahre" Klassen
zahl disjunkt zu gruppieren, ist aber leichter zu lösen [Bock 74]. Wenn die Clusteranalyse auf
die Selektion von Lernvektoren für das Trainieren von Kohonen-Netzen angewandt wird,
stellen die Objekte die Zeitmustervektoren dar und die Klassen die aus den Zeitmustervekto
ren selektierten Lernvektoren. Um die Kohonen-Netze flexibel an die Rechnerressourcen an
passen zu können, wurde bei der Entwicklung des Selektionsverfahrens der zirkularen
Gruppenreduktion darauf geachtet, daß die Anzahl der Lernvektoren frei gewählt werden
kann. Diese freie Wahl sollte auch bei dem Verfahren der Clusteranalyse ermöglicht sein.