Clustern von Dokumenten
- oder die gesamte Dokumentkollektion in einzelne Cluster zu zerlegen
Bild 8: Zerlegung einer Dokumentkollektion in einzelne Cluster (hierarchisches Clustern)
Analysen, wie in den Bildern fünf, sechs und sieben dargestellt, können natürlich nicht nur für einzelne Dokumente, sondern auch für die ganze Kollektion oder jedes beliebige Cluster erstellt werden.
Wie funktioniert Clustern?
Bei der Zerlegung in Cluster werden Gruppen von Dokumenten so gebildet, dass die Lageabweichungen der Gruppenmitglieder vom gemeinsamen Schwerpunkt möglichst gering sind. Eine Darstellung des Vorgangs in zwei Dimensionen zeigt die nächste Abbildung:
Bild 9: Gruppierung von einzelnen Werten in unterschiedliche Cluster nach der Methode K-Means.
Man erkennt einzelne Messwerte (rot, grün, blau), zusammen mit den Clusterschwerpunkten). Der Unterschied zur hier besprochenen Dokumentanalyse besteht jetzt nur darin, dass der Vorgang nicht im zweidimensionalen Raum, sondern z. B. im 3000-dimensionalen Raum stattfindet. Obwohl man sich einen solchen Raum nicht vorstellen kann, besteht aus mathematischer Sicht kein Unterschied: das Vorgehen ist das gleiche.
Um zu der Darstellung von Bild 8 zu gelangen, wurde das Verfahren mehrfach angewandt; es wurden zuerst eine Aufteilung in zwei Cluster vorgenommen, dann jedes der beiden Cluster wieder in zwei Cluster unterteilt, usw. (hierarchisches Clustern).