Explorative Dokumentanalyse - Suchen alleine reicht nicht aus
Die Beschränkung auf "Durchsuchen" führt bei großen Mengen an Dokumenten in die Situation, dass sogar der Anteil des Unbekannten unbekannt ist. Dann ist eine systematische und strukturierte Herangehensweise gefragt, um Inhalte auffindbar zu machen.
Die klassische statistische Analyse numerischer Daten kennt die Unterscheidung in beschreibende und beurteilende Statistik. Während mit Hilfe der beurteilenden Statistik geprüft wird, ob die Annahme, dass die untersuchten Daten durch ein bestimmtes Modell beschrieben werden können, mit ja oder nein beantwortet werden kann, versucht die beschreibende Statistik eine modellfreie Analyse dann, wenn kein Vorwissen vorhanden ist, um sich überhaupt ein Bild über die Daten verschaffen zu können.
Die beurteilende Statistik beantwortet also Fragen, die beschreibende ermöglicht einen Überblick, wenn man - mangels Vorwissen - keine Fragen stellen kann.
Das Vorgehensmodell "Explorative Datenanalyse" (EDA) gewährleistet im Rahmen der beschreibenden Statistik, dass durch systematische Verwendung unterschiedlichster Analysemethode (Boxplot, Histogramm, QQ-Plot, Scatterplotmatrix, Paretoplot etc.) der Anwender in die Lage versetzt wird, sich einen Einblick in die zu analysierenden Daten zu verschaffen, und auf diese Weise Vorwissen für weitere Untersuchungen zu erhalten.
Die Sichtweise ist etabliert: liegt Vorwissen über die Daten vor, macht es Sinn, beurteilende Statistik anzuwendet; liegt kein Vorwissen vor, ist es besser, sich zuerst mit beschreibender Statistik dieses Vorwissen zu verschaffen.
Betrachtet man statt numerischen nichtnumerische Daten - Dokumente - ist diese Vorgehensweise bei weitem nicht so etabliert, obwohl sie natürlich auch hier für eine systematische Erschließung des Inhalts sinnvoll wäre. Bedingt durch die Historie werden Dokumente durchsucht, obwohl suchen - aus Sicht des Vorgehens - als Analogie zur beurteilenden Statistik zu sehen ist. Mit Suchen stellt der Anwender eine Frage an die Daten, die entweder mit ja oder nein beantwortet wird.
Ja, das, was ich suche, ist in den Daten enthalten, oder nein - eben nicht.
Weil nur gesucht werden kann, was man kennt, können große Dokumentkollektionen durch Suchen niemals systematisch erkundet werden. In solchen Situationen ist sogar der Anteil des Unbekannten unbekannt, wenn man sich auf Suchen beschränkt.
Für die systematische Erschliessung grosser Dokumentkollektionen müssen deswegen Verfahren eingesetzt werden, die - ebenso wie bei numerischen Daten - eine strukturierte systematische Analyse gewährleisten.
Die dafür notwendigen Algorithmen sind im Detail natürlich völlig anders, obwohl sie von der Zielsetzung her ein vergleichbares Ergebnis produzieren sollen: die zusammenfassende Darstellung der Daten aus unterschiedlichsten Blickwinkeln.
Statt Boxplot, Histogramm und Co. sind im Fall von Dokumenten Verfahren gefragt, um Inhaltsbausteine der Dokumente wie z. B. TITEL, VERFASSER, ERSTELLDATUM, ZUSAMMENFASSUNG, ORT, ETC. extrahieren und strukturiert darstellen zu können. dies gilt um so mehr, wenn - wie im Fall von technischen Dokumenten (wissenschaftliche Publikationen, Patente, etc.) - Inhaltsbausteine wie z. B. Herstellungsverfahren, Analytische Verfahren, Normen, Werkstoffe oder Messwerte erkannt werden müssen, die nicht durch ihre Position im Dokument oder durch sogenannte "Tags" (Markierungen) hervorgehoben sind. "Mustererkennung von Zeichenketten" ist in solchen Fällen das Mittel der Wahl.
Richtig eingesetzt lassen sich so nicht nur vollständige Sachverzeichnisse automatisch erstellen, sondern eben auch Themenbezogene Sachverzeichnisse wie z. B. Verzeichnis der HERSTELLUNGSVERFAHREN, der NORMEN, der verwendeten WERKSTOFFE, der erzielten MESSWERTE (auch umgerechnet in eine bestimmte Einheit), der CHEMISCHEN REAKTIONSGLEICHUNGEN, der MATHEMATISCHEN FORMELN und was der Dinge mehr sein mögen.
Es entsteht das, was ein gut strukturiertes Fachbuch ausmacht: die Möglichkeit, unter verschiedensten Aspekten auf den Inhalt zugreifen zu können.
Moment, eines fehlt natürlich noch: ein Inhaltsverzeichnis. Das aber lässt sich mit Hilfe von Verfahren aus dem Bereich des maschinellen Lernens erstellen. Welche Dokumente gehören inhaltlich zusammen, welche Themen sind enthalten? Auch auf solche Fragen lassen sich die passenden Antworten finden.
Und: auch Suchen ist natürlich möglich. Suchen alleine ist aus den zuvor beschriebenen Gründen unbefriedigend, Suchen als Ergänzung von Inhalts- und Sachverzeichnissen aber natürlich wünschenswert und notwendig.