Unser Ziel ist es, die Art und Weise, wie SIE Dokumente benutzen, um zu verstehen, wer SIE sind, und wer ANDERE sind, völlig zu verändern.

  • WER WIR SIND
    Wir sind ein Ingenieurbüro mit dem Arbeitsgebiet TextAnalytics. Für unsere Arbeit benutzen wir technische Dokumente, um komplexe Zusammenhänge sichtbar zu machen
    WARUM
    Ergebnisse werden nachvollziehbar
    ERGÄNZUNG
    Als Ergänzung oder Ersatz eines Brainstormings
  • Was wir tun
    Wir betreiben Explorative Dokumentanalyse (Mustererkennung und maschinelles Lernen), um das zu finden, was Sie sich durch klassisches Lesen sonst mühsam erarbeiten müssten.
    90 Millionen
    Werkstoffnamen finden wir ebenso wie Reaktionsgleichungen, Formeln, Herstellungsverfahren oder Normen
    90 Mess
    größen in ca. 3000 Schreibweisen können wir erkennen und ineinander umwandeln.
  • WIR LIEFERN ANTWORTEN
    Anstatt Experten zu befragen, die Sie zuerst suchen müssten, liefern wir Antworten aus Dokumenten, die von Experten weltweit verfasst worden sind.
    80 %
    geringerer Zeitaufwand
    200 %
    und mehr Steigerung der Ergebnissqualität
  • MASCHINELLES LESEN
    Wir haben Zugriff auf Millionen von Dokumenten mir regelmässigem Update des Datenbestands.
    450
    Millionen Dokumente
    UPDATES
    jede Woche

Was versteht man unter dem Begriff "Zusammenfassen"?

Zusammenfassen bedeutet, die wesentlichen Konzepte eines Textes in wenigen Abschnitten zu  konzentrieren, und alles unwesentliche weg zu lassen. Im Extremfall kann eine Zusammenfassung sogar nur aus den wichtigsten Worten bestehen.

Während die Aufgabe des Zusammenfassens von Texten in der Vergangenheit nur durch Menschen durchgeführt werden konnte, sind Computeralgorithmen in der Zwischenzeit gut genug, um vergleichbare Ergebnisse zu liefern.

Zusammenfassen - Finden, was Sie bisher nicht wissen

Ist man bis hierher gekommen, sind die Kenntnisse über die Dokumentkollektion bereits deutlich umfangreicher als am Anfang der Untersuchung. Es wäre zum Beispiel aber noch wichtig, nicht nur zu wissen, welche Cluster vorhanden sind, und welche Dokumente zu den einzelnen Clustern gehören, sondern welche Themenkomplexe die einzelnen Clustern bestimmen.

Während man sonst nur suchen kann, was man kennt, kann man auf diese Art auch das finden, was man nicht kennt ...

Eine derartige Analyse zeigt Bild 13. Hier ist eine Dokumentkollektion wieder in mehrere Cluster unterteilt (linke Seite), wobei die Clustergröße durch die Kreisgröße visualisiert wird. Auf der rechten Seite ist für ein markiertes Cluster zu sehen, welche Begriffe in diesem Cluster besonders häufig sind (rote Balken). Die blaugrauen Balken zeigen die Häufigkeit der Begriffe in der gesamten Kollektion 

 

DocumentAnalysis-13

Bild 13: Erklärung im Text

Zusammenfassen mit "Topic Models"  

DocumentAnalysis-13b

Bild 13b: Mit Hilfe dieser Liste aus 25 Themen, mit jeweils 20 Schlüsselworten wird eine Kollektion von ca. 450 Patenten erschlossen.

Anstatt Dokumente in Cluster zu gruppieren, und anschließend zu ermitteln, welche Inhalte in welchen Clustern dominieren, kann auch ein anderer Weg beschritten werden.

Man ermittelt, welche Themenkomplexe in der gesamten Dokumentkollektion vorhanden sind, und ordnet dann die Dokumente der Kollektion den Themen zu. Obwohl auf den ersten Blick kein gravierender Unterschied zum zuerst genannten Verfahren besteht, ist dieser Unterschied jedoch serwohl vorhanden.

Bei der Zuordnung von Dokumenten zu Clustern wird davon ausgegangen, dass ein bestimmtes Dokument eindeutig einem bestimmten Cluster zugewiesen werden kann. Im Gegensatz dazu ist das umgekehrte Verfahren in der Lage, ein Dokument als aus mehreren Abschnitten bestehend aufzufassen, die ihrerseits zu unterschiedlichen Themenkomplexen gehören können.

Das nachfolgende Beispiel zeigt das Ergebnis einer Analyse, bei der ca. 450 Patente in 25 Themenkomplexe zerlegt worden sind, wobei jedes Thema durch max. 20 Stichworte repräsentiert wird.

Klickt man ein Thema an, erhält man eine Liste der zugehörigen Dokumente, absteigend sortiert nach der Anzahl der Worte des Themas, die im Dokument enthalten sind.

EXPLORE
Forschungseinrichtung: finden von Werkstoffnamen
(Werkstoffe für die thermische Energiespeicherung).
NAVIGATE
Forschungseinrichtung: finden von Märkten,
auf denen Werkstoffe aus Metallschaum gebraucht werden.
IDEATE
Unternehmen: finden von Möglichkeiten, um den
Abfüllvorgang einer hochviskosen Flüssigkeit zu beschleunigen.
EXPLORE
Kommune mit > 500.000 Einwohnern: finden von regionalen
IT-Unternehmen und clustern der Interessen
REMEMBER
Unternehmen: automatisches Verschlagworten
von Dokumenten im Intranet
COMPARE
Unternehmen: Vergleich des internen Wissens
mit dem Wissen von Wettbewerbern.
LOCATE
EU-Projekt einer Landesentwicklungsgesellschaft:
Verfahren, um Regionen mit gleichen Kenntnissen und
Interessen sichtbar zu machen.
EXPLORE
IHK: finden von regionalen Automobilzulieferern
und clustern der Interessen
BLEND
Hochschule: finden von passenden Partnern
für ein EU-Entwicklungsvorhaben.
CHANGE
Unternehmen: Innovationsaudit zur Ausrichtung
der Unternehmensstrategie auf Megatrends.
REMEMBER
Ablagesystem für studentische Abschlussarbeiten
Combine
Expansion und / oder Marktanpassung im Verlauf einer Unternehmensnachfolge