Die Eigenschaftsmatrix entsteht
Im weiteren Verlauf der Analyse werden alle Dokumente des Korpus
- automatisch in einzelne Worte zerlegt, wobei
- bedeutungslose Worte entfernt, und
- alle Worte auf ihre Stammformen reduziert werden (hinter Automat, automatisch, automatischer, automatisches, etc. steckt immer der selbe Sinn). Anschließend wird für jedes Wort
- berechnet: wie groß ist die Bedeutung des Wortes sowohl für das einzelne Dokument, als auch für die gesamte Kollektion.
- Als Ergebnis entsteht eine Matrix, die so viele Zeilen enthält, wie Dokumente im Korpus vorhanden sind, und so viele Spalten (im Korpus) wie Worte besitzt. Jede Zelle der Matrix enthält die Bedeutung eines bestimmten Wortes für ein ausgesuchtes Dokument.
- Sowohl die Bedeutung der Dokumente, als auch die Bedeutung einzelner Worte wird als Zahl ausgedrückt, so dass man damit rechnen kann.
Bild 4: Eigenschaftsmatrix der Dokumentkollektion. Jede Zeile steht für ein Dokument, der Dokumentname (hier: Patentnummer) steht in der ersten Spalte. Ab der zweiten Spalte folgen so viele Spalten, wie Worte in der Dokumentkollektion enthalten sind, nachdem alle überflüssigen Worte entfernt worden sind (in diesem Beispiel ca. 3000). In den Zellen der Matrix steht ein Zahl als Maß für die relative Häufigkeit des betreffenden Wortes im Dokument.