Was versteht man unter dem Begriff "Zusammenfassen"?
Zusammenfassen bedeutet, die wesentlichen Konzepte eines Textes in wenigen Abschnitten zu konzentrieren, und alles unwesentliche weg zu lassen. Im Extremfall kann eine Zusammenfassung sogar nur aus den wichtigsten Worten bestehen.
Während die Aufgabe des Zusammenfassens von Texten in der Vergangenheit nur durch Menschen durchgeführt werden konnte, sind Computeralgorithmen in der Zwischenzeit gut genug, um vergleichbare Ergebnisse zu liefern.
Zusammenfassen - Finden, was Sie bisher nicht wissen
Ist man bis hierher gekommen, sind die Kenntnisse über die Dokumentkollektion bereits deutlich umfangreicher als am Anfang der Untersuchung. Es wäre zum Beispiel aber noch wichtig, nicht nur zu wissen, welche Cluster vorhanden sind, und welche Dokumente zu den einzelnen Clustern gehören, sondern welche Themenkomplexe die einzelnen Clustern bestimmen.
Während man sonst nur suchen kann, was man kennt, kann man auf diese Art auch das finden, was man nicht kennt ...
Eine derartige Analyse zeigt Bild 13. Hier ist eine Dokumentkollektion wieder in mehrere Cluster unterteilt (linke Seite), wobei die Clustergröße durch die Kreisgröße visualisiert wird. Auf der rechten Seite ist für ein markiertes Cluster zu sehen, welche Begriffe in diesem Cluster besonders häufig sind (rote Balken). Die blaugrauen Balken zeigen die Häufigkeit der Begriffe in der gesamten Kollektion
Bild 13: Erklärung im Text
Zusammenfassen mit "Topic Models"
Bild 13b: Mit Hilfe dieser Liste aus 25 Themen, mit jeweils 20 Schlüsselworten wird eine Kollektion von ca. 450 Patenten erschlossen.
Anstatt Dokumente in Cluster zu gruppieren, und anschließend zu ermitteln, welche Inhalte in welchen Clustern dominieren, kann auch ein anderer Weg beschritten werden.
Man ermittelt, welche Themenkomplexe in der gesamten Dokumentkollektion vorhanden sind, und ordnet dann die Dokumente der Kollektion den Themen zu. Obwohl auf den ersten Blick kein gravierender Unterschied zum zuerst genannten Verfahren besteht, ist dieser Unterschied jedoch serwohl vorhanden.
Bei der Zuordnung von Dokumenten zu Clustern wird davon ausgegangen, dass ein bestimmtes Dokument eindeutig einem bestimmten Cluster zugewiesen werden kann. Im Gegensatz dazu ist das umgekehrte Verfahren in der Lage, ein Dokument als aus mehreren Abschnitten bestehend aufzufassen, die ihrerseits zu unterschiedlichen Themenkomplexen gehören können.
Das nachfolgende Beispiel zeigt das Ergebnis einer Analyse, bei der ca. 450 Patente in 25 Themenkomplexe zerlegt worden sind, wobei jedes Thema durch max. 20 Stichworte repräsentiert wird.
Klickt man ein Thema an, erhält man eine Liste der zugehörigen Dokumente, absteigend sortiert nach der Anzahl der Worte des Themas, die im Dokument enthalten sind.