104
Dazu sind disjunkte Verfahren mit als bekannt vorausgesetzter Klassenzahl am geeignetsten.
Auch wenn diese Verfahren die Daten noch so gut partitionieren, d.h. in Klassen einteilen,
sollte trotzdem erwartet werden können, daß die Vorhersagefehler der Kohonen-Netze mit der
Erhöhung der Anzahl von Klassen bzw. Lernvektoren, die von den Netzen angelernt werden,
gesenkt werden. Da aber die disjunkten Verfahren den Daten eine künstliche Clusterung
aufprägen und diese künstlich aufgeprägte von der natürlichen Clusterung abweichen kann,
müssen die Vorhersagefehler nicht unbedingt monoton sinken. Wenn sie nicht unbedingt
monoton, aber insgesamt über größere Unterschiede von Vektoranzahlen betrachtet sinken
würden, wäre damit das Argument gewonnen, daß größere Rechner eine bessere Vorhersa
gegenauigkeit bewirken (Kap.5.3).
Die disjunkten Verfahren - auch partitionierende Cluster-Methoden genannt -, sind in ihrer
Vielfalt nach Erfahrung und Überzeugung von Späth für den Einsatz bei größeren Daten
mengen die wichtigsten [Späth 83]. Wenn die Cluster- bzw. Klassenzahl als bekannt vor
ausgesetzt wird, werden den Daten künstliche Cluster aufgeprägt. Trotz der Künstlichkeit
können solche Cluster nützlich sein, wenn sie wenigstens bestimmte Eigenschaften haben.
Eine solche Eigenschaft wäre z.B., daß jedes Klassenelement vom Zentrum seiner Klasse
keinen größeren Abstandswert als zu anderen Zentren hat, also eine "Minimaldistanz-Parti
tion" vorliegt [Späth 83].
Eine Partition kann auf folgende Weise formal beschrieben werden. Es seien die N
Objekte durchnumeriert und mit diesen Nummern identifiziert. Die Objektmenge O sei
folglich mit O = {1,... N] bezeichnet. O wird so in n Klassen C i; i=l,...n gruppiert, daß jedes
Objekt genau einer Klasse zugeordnet wird und jede Klasse wenigstens ein Objekt enthält:
C, U ... U C„ = O,
C ; n C k = 0 (i + k), (0 leere Menge),
Ar,: = |C ; .|fclO'=l,...«)
1 s n <; N (4.8)
Die Klassen Q bilden dann eine Partition C der Länge n:
C = (C„ ... C„) (4.9)
Die partitionierenden Cluster-Methoden benötigen eine Zielfunktion. Als solch eine Funktion
kann jeder möglichen Partition eine nichtnegative reelle Zahl zugeordnet werden. Diese Zahl
erlaubt es, alle diese Partitionen zu vergleichen und als optimale Partition eine solche mit
kleinstem oder größtem Zielfunktionswert zu definieren [Späth 83]. Eine der gebräuchlichsten
Zielfunktionen ist das Varianzkriterium [Ultsch et al. 91a], Bei einer festen Partition C und
einem bestimmten Cluster C t läßt sich ein Zentrum Xj so definieren, daß die Summe der
quadratischen Abweichungen (euklidischen Distanzen) vom Zentrum zu den Objekten bzw.
Vektoren x ; e Cj (x von der Länge L) minimiert wird. Diese Abweichungsquadratsumme, die
ein Maß für die Streuung der Vektoren ist, ist dann minimal, wenn das Zentrum der arithme
tische Mittelwert der Vektoren ist. Die Summe kann als Kompaktheitsmaß für ein Cluster
angesehen werden. Als Güte für eine Partition kann naheliegenderweise der arithmetische
Mittelwert der Kompaktheitsmaße aller Cluster definiert werden. Dieser Mittelwert, das
Varianzkriterium D(C) einer Partition C, ist somit: