Maschinelles Lesen technischer Dokumente – oder: wie ich lernte, Energiespeicher zu verstehen
Der Ausstieg aus fossilen Energieträger wie Kohle, Öl und Gas bringt es mit sich, dass das technologische Konzept zur Energiespeicherung in Deutschland völlig neu überdacht werden muss. Energiespeichern kommt in einem künftigen Energiesystem - sei es elektrisch oder thermisch - eine Schlüsselrolle zu, da sie eine räumliche und zeitliche Anpassung zwischen Erzeugung und Verbrauch ermöglichen. Aus diesem Grund haben in den letzten Jahren zahlreiche Institutionen Machbarkeitsstudien bzw. Positionspapiere herausgegeben, in denen mögliche Lösungsszenarien beschrieben werden.
1. Warum Energiespeicher
Vorteile von Energiespeichern bestehen mindestens darin, dass:
- die Verfügbarkeit von Strom oder Wärme aus Photovoltaik, Wind, Wasserkraft, Gezeiten, Biomasse, Abwärme, etc. durch Speicher ausgeglichen wird, wobei Speicherdauer und Speicherkapazität je nach Anwendung über viele Größenordnungen variieren,
- die Effizienz des Gesamtsystems gesteigert wird, weil Anlagen dann, wenn große Leistungen zur Verfügung stehen, nicht mehr abgeriegelt werden müssen,
- Lastspitzen sich mindestens reduzieren - wenn nicht sogar vermeiden lassen, so dass das Energiesystem an sich stabiler betrieben werden kann,
- erst durch Energiespeicher regionale Energiesysteme überhaupt möglich werden, deren Ziel es ist, Erzeugung und Verbrauch nicht mehr wie bisher großräumig zu trennen, sondern so zu Verzahnung, dass nur noch ein Differenzbedarf über Leitungen zu- oder abgeführt werden muss.
- elektrische und thermische Energienetze ohne die Möglichkeit zur Speicherung überhaupt nicht denkbar sind.
2. Was gibt es für Literatur dazu?
Möchte man sich in das Thema einarbeiten, das gerade durch die politischen und klimatischen Veränderungen der letzten Zeit drastisch an Bedeutung gewonnen hat, kann man mindestens vier unterschiedliche Arten von Publikationen lesen, die sich in ihrer Zielsetzung unterscheiden. Eine Untergliederung könnte man wie folgt vornehmen:
- Studien und Positionspapiere, die im Auftrag einer Organisation erstellt werden und das Ziel haben, das Thema mehr oder weniger objektiv entweder in Teilaspekten oder möglichst vollständig zu bewerten. Sie sind oft als Grundlage für wirtschaftspolitische Entscheidungen gedacht – dienen also hauptsächlich dem technologischen Fortschritt.
- Abschlussarbeiten (Bachelor- und Masterarbeiten, Dissertationen), die in der Regel Details untersuchen und dem wissenschaftlichen Fortschritt voranbringen sollen.
- Publikationen, die in Zeitschriften und Büchern erscheinen; sie dienen ebenfalls dem wissenschaftlichen Fortschritt, indem sie erarbeitetes Wissen anderen zur Verfügung stellen, die ihrerseits dieses Wissen bei eigenen Arbeiten berücksichtigen können.
- Schutzrechte, die die Exklusivität von Nutzungsrechten für technologische Verbesserungen für eine bestimmte Zeit für den Anmelder des Schutzrechts reservieren.
Wir werden mit den Studien und Positionspapieren beginnen, weil sie einerseits nicht zu sehr ins Detail gehen, sondern aus Prinzip versuchen, einen Gesamtzusammenhang herzustellen. Andererseits gehen sie genügend ins Detail, um eine fundierte Einschätzung zu ermöglichen.
Folgende Studien haben wir im Rahmen einer - zeitlich nicht allzu ausgedehnten - Internetrecherche gefunden.
Tabelle 1: Studien und Positionspapiere zum Thema "Energiespeicher" - Zeitbereich 2007 bis 2021
(eine interaktive Tabelle mit gleichem Inhalt finden Sie hier).
Bezeichnung | Herausgeber | Titel | Datum | Seiten |
---|---|---|---|---|
01-dena-de | DENA GmbH | Thermische Energiespeicher für Quartiere | 2021-09 | 71 |
02-dlr-de | DLR e. V. | Technologiebericht 3.3b Energiespeicher (thermisch, thermo-chemisch und mechanisch) innerhalb des Forschungsprojekts TF_Energiewende | 2018-03 | 57 |
03-bdew-de | BDEW – Bundesverband der Energie- und Wasserwirtschaft e. V. | Energiespeicher | 2019-04 | 41 |
04-aee-de | AEE – Agentur für Erneuerbare Energien e. V. | ENERGIESPEICHER: TECHNOLOGIEN UND IHRE BEDEUTUNG FÜR DIE ENERGIEWENDE | 2019-11 | 36 |
05-vdi-de | VDI | Stationäre Energiespeichersysteme in der industriellen Produktion | 2018-04 | 129 |
06-bfh-ch | Berner Fachhochschule | Energiespeicher im Stromnetz | 2019-06 | 4 |
07-bfe-ch | Bundesamt für Energie | Energiespeichertechnologien | 2021-09 | 36 |
08-store-eu | www.store-project.eu | Hindernisse und Herausforderungen für Energiespeicher unter den derzeitigen politischen, marktregulatorischen und wirtschaftlichen Rahmenbedingungen | 2014-03 | 9 |
09-joanneum-at | Joanneum Research | ENERGIESPEICHER DER ZUKUNFT | 2012-02 | 263 |
10-er-eu | Europäischer Rechnungshof | EU-Unterstützung für die Energiespeicherung | 2019-04 | 52 |
11-acatech-de | ACATECH | Energiespeicher | 2015-09 | 84 |
12-dihk-de | DIHK / BVES | Faktenpapier Energiespeicher | 2016-04 | 32 |
13-din-de | DIN / VDI / DKE / DVGW | Deutsche Normungsroadmap Energiespeicher – Version 2 | 2021-06 | 141 |
14-wd-de | Deutscher Bundestag – Wissenschaftliche Dienste | Vor- und Nachteile verschiedener Energiespeichersysteme | 2014-06 | 24 |
15-fzj-de | Forschungszentrum Jülich | Energiespeicher | 2020-09 | 15 |
16-hbs-de | Hans-Böckler-Stiftung | Innovation Energiespeicher | 2018-11 | 90 |
17-fhg-de | FhG – ISI | Technologie-Roadmap Stationäre Energiespeicher 2030 | 2015-12 | 42 |
18-dechema-de | Dechema | Energiespeicher – der Beitrag der Chemie | 2015-01 | 20 |
19-uba-de | UBA – Umweltbundesamt | Zukunftsmarkt Elektrische Energiespeicherung | 2007-12 | 42 |
20-fhg-de | FhG – IWES | Roadmap Speicher | 2014-11 | 126 |
21-agora-de | AGORA Energiewende | Stromspeicher in der Energiewende | 2014-09 | 152 |
22-ifg-de | IFG Leipzig | Energiespeicherung in Salzkavernen mit Superkritischem CO2 | 2021-01 | 7 |
23-zae-de | ZAE Bayern | Überblick internationale F&E Aktivitäten für kompakte thermische Energiespeicher | 2016-09 | 18 |
24-fhg-de | FhG – UMSICHT | Speicher für die Energiewende | 2013-09 | 117 |
25-fhg-de | FhG – ISI | Technologie-Roadmap Energiespeicher für die Elektromobilität 2030 | 2012-10 | 36 |
26-theen-de | Theen – Thüringer Erneuerbare Energien Netzwerk e. V. | Energiespeicherstudie für das Bundesland Thüringen | 2019-08 | 104 |
27-ahk-de | AHK – Deutsch-Amerikanische Handelskammer | Energiespeicherung USA | 2015-10 | 123 |
28-tum-de | TUM | Integration und Bewertung erzeuger- und verbraucherseitiger Energiespeicher | 2012-09 | 100 |
29-sccer-ch | SCCER – Swiss Competence Center for Energy Research | Handbuch Energiespeicher | 2020-11 | 108 |
30-bna-de | Bundesnetzagentur | Regelung zu Stromspeichern im Deutschen Strommarkt | 2021-03 | 24 |
31-ptj-de | Projektträger Jülich | Erfolgskontrolle der Förderinititative Energiespeicher | 2017-06 | 24 |
32-vde-de | VDE | Zellulares Energiesystem | 2019-05 | 52 |
33-vci-de | VCI | Zukunft der Energiespeicher | 2013-10 | 40 |
34-vci-de | VCI | Grundlagen zur Markteinfuhrung von Stromspeichern aus Sicht der chemischen Industrie | 2017-07 | 26 |
35-wd-de | Deutscher Bundestag – Wissenschaftliche Dienste | Energiespeicher der Elektromobilität – Entwicklung der Energiedichten | 2020-12 | 10 |
36-unistgt-de | Universität Stuttgart | Modellierung von Energiespeichern und Power-to-X-Technologien mit dem europäischen Energiesystemmodell TIMES PanEU | 2016-02 | 15 |
37-fhg-de | FhG – IEE / ISE | Neues Strommarktdesign | 2021-11 | 247 |
38-fhg-de | FhG – IWES | Energieziel 2050 | 2010-07 | 196 |
39-planet-de | PLANET et. al. | Integration von Wind-Wasserstoff-Systemen in das Energiesystem | 2014-03 | 250 |
40-fhg-de | FhG – IWES et. al. | Langfristszenarien und Strategien für den Ausbau der erneuerbaren Energien in Deutschland bei Berücksichtigung der Entwicklung in Europa und global | 2012-03 | 345 |
41-sru-de | SRU – Sachverständigenrat für Umweltfragen | Wege zur 100 % erneuerbaren Stromversorgung | 2011-01 | 390 |
42-vde-de | VDE | Energiespeicher für die Energiewende | 2012-06 | 39 |
43-agora-de | AGORA Energiewende | Power-to-Heat zur Integration von ansonsten abgeregeltem Strom aus Erneuerbaren Energien | 2014-06 | 124 |
44-fhg-de | FhG – ISI | Langfristszenarien für die Transformation des Energiesystems in Deutschland | 2017-09 | 55 |
45-oth-de | FENES-OTH Hochschule Regensburg | Energiespeicher in Deutschland | 2014-03 | 31 |
46-fhg-de | FhG – ISE | ENERGIESYSTEM DEUTSCHLAND 2050 | 2013-11 | 46 |
47-fhg-de | FhG – ISE | 100 % ERNEUERBARE ENERGIEN FÜR STROM UND WÄRME IN DEUTSCHLAND | 2012-11 | 37 |
48-bmwi-de | BMWI | Ein Strommarkt für die Energiewende | 2014-10 | 60 |
49-diw-de | DIW – Deutsches Institut für Wirtschaftsforschung | Systemintegration erneuerbarer Energien: Die Rolle von Speichern für die Energiewende | 2013-03 | 28 |
50-diw-de | DIW – Deutsches Institut für Wirtschaftsforschung | Erneuerbare Energien: Überschüsse sind ein lösbares Problem | 2013-08 | 24 |
51-bundestag-de | Deutscher Bundestag | Situation der Energiespeicher in Deutschland | 2021-06 | 15 |
52-diw-de | DIW – Deutsches Institut für Wirtschaftsforschung | Speicher und Elektrofahrzeuge im Stromsystem | 2015-03 | 24 |
53-fhg-de | FhG - ISE | SolSys Analyse und Optimierung solarer Energieversorgungssysteme (Wärme/Strom) für Gebäude | 2019-07 | 466 |
Natürlich könnte man jetzt an irgend einer Stelle mit dem Lesen beginnen. Aber selbst bei den ca. 50 Studien, die wir hier zusammengetragen haben, ist das keine Aufgabe, die an einem Nachmittag erledigt ist; man wird – wenn man versucht, sich Notizen zu machen und die Dokumente zu vergleichen und systematisch abzulegen – vermutlich mindestens eine Woche Zeit dafür aufwenden müssen.
Wie geht es besser? Um das herauszufinden, sehen wir uns an, wie man bei numerischen Daten (Messwerten) vorgehen würde.
3. Explorative Analyse numerischer Daten - EDA
Übertragen auf die Arbeit mit Messwerten wäre die oben beschriebene Vorgehensweise - sich in das Thema einzuarbeiten - so, als würde man versuchen, Messungen technologischer Größen dadurch zu verstehen, indem man die Reihen der Messwerte an sich durchliest, um darin Zusammenhänge zu erkennen. Eine mögliche, jedoch sehr zeitaufwendige und wenig Erfolg versprechende Vorgehensweise.
Um Zusammenhänge zwischen Messwerten zu erkennen, benutzt man – vereinfacht gesagt – eine von zwei Vorgehensweisen.
Entweder ist bekannt, welche Zusammenhänge zwischen den Werten vorhanden sein sollten; dann werden die Daten statistisch oder grafisch so aufbereitet, dass man entscheiden kann, ob die Annahme (dass die Zusammenhänge vorhanden sind) zutreffend ist oder nicht.
Falls keine Zusammenhänge bekannt sind – wenn manchmal nicht einmal klar ist, welche Art von Daten überhaupt vorliegen – wird ein Verfahren angewendet, das sich Explorative Datenanalyse (EDA) nennt. Mit EDA gelingt es, aufzuzeigen, mit welcher Art von Modell man die vorhandenen Daten erklären kann.
Eine Einführung in EDA können Sie hier nachlesen (Englisch)
Zusammengefasst kann man sagen: um unbekannte numerische Daten zu verstehen (= sich in sie einzulesen), beschreibt man zuerst, welche Daten überhaupt vorliegen, um sie anschließend mit vorgegebenen statistischen und grafischen Methoden darzustellen.
4. Explorative Dokumentanalyse – wie Messwerte, nur anders - Teil A
Überträgt man die Vorgehensweise EDA auf Dokumente, also unstrukturierte Daten – wird klar, dass EDA (= jetzt Explorative Dokumentanalyse) auch beim beruflichen Lesen sehr hilfreich wäre, weil hier wie dort bestimmte Schritte immer wieder durchlaufen werden:
- finden
- ablegen,
- priorisieren,
- wiederfinden,
- sortieren,
- sichten,
- verstehen,
- Schlüsse daraus ziehen.
Natürlich gibt es klassische Lesestrategien,
die eigentlich genau dafür gedacht sind; sie helfen jedoch nur sehr bedingt, wenn viele Dokumente in kurzer Zeit bearbeitet werden müssen.
Welche Art von standardisierten Analysen würde einem Leser dabei helfen, den Inhalt einer Vielzahl von Dokumenten sowie den Zusammenhang zwischen ihnen zu verstehen, um entscheiden zu können, wo mit dem eigentlichen Lesen begonnen werden sollte? Um eine Vorstellung davon zu bekommen, welche Analysen nützlich wären, schauen wir uns an, wie eine Bibliothek funktioniert.
5. Inhalte finden und Zusammenhänge erkennen - die Bibliothek
Wie funktioniert so etwas – einlesen in ein Thema – eigentlich in einer Bliothek? Eine Bliothek besitzt:
- eine Software, mit deren Hilfe man nach Büchern und Zeitschriften suchen kann.
Durchsucht werden dabei die Felder, die bei der Erfassung des Dokuments ausgefüllt worden sind (Metadaten). Darüber hinaus
- sind die Dokumente in einer Bibliothek nach Themen abgelegt, so dass man auch ohne Benutzung der Software nachschauen kann, was zu einem bestimmten Thema vorhanden ist.
Ein Buch oder ein Artikel besitzt
- einen aussagekräftigen Titel,
- ein Inhaltsverzeichnis,
- oft eine Zusammmenfassung, sowie
- ein von Menschen lesbares Stichwortverzeichnis.
Auch wenn man nur eine ungefähre Vorstellung davon hat, was man sucht, kann man in die gewünschte Abteilung gehen, und sich dort von den vorhandenen Büchern inspirieren lassen. Die Bücher selbst kann man dadurch beurteilen, dass man Titel, Zusammenfassung und Inhaltsverzeichnis liest, und erst danach entscheidet, welche Bücher in welcher Reihenfolge man auswählt.
Die Frage ist nun, wie sich diese Möglichkeiten nachträglich - also nach Fertigstellung eines Dokuments – auf elektronische Dokumente übertragen lassen, und wie der Vorgang als solches automatisiert werden kann.
Warum existierende Software nicht weiterhilft, lesen Sie hier.
6. Explorative Dokumentanalyse – wie Messwerte, nur anders - Teil B
Damit kristallisiert sich nun heraus, welche Möglichkeiten bisher fehlen, damit IT-Lösungen bei der Einarbeitung in ein Thema mit Hilfe von Literatur eine bessere Hilfe bieten.
Eine Explorative Dokumentanalyse muss
- es möglich machen, Dokumente automatisch zu sortieren, damit eine manuelle Ablage überflüssig ist,
- es möglich machen, zu erkennen, welche Teilaspekte eines Themas eine bestimmte Gruppe von Dokumenten abdeckt, die als inhaltlich ähnlich erkannt worden sind,
- einen von Menschen lesbaren Volltextindex bieten, um nicht alleine auf die elektronische Suche angewiesen zu sein (man kann nur suchen, was man bereits kennt),
- eine automatische Zusammenfassung der Dokumente erzeugen können, um zu entscheiden, ist ein Dokument im Moment interessant oder nicht, und
- eine elektronische Suchfunktion bieten, die auf dem Volltext, nicht nur auf Titel und Stichworten basiert.
Fangen wir also an, und versuchen, die unter 4. beschriebenen Aufgaben mit diesen Zielen zur Deckung zu bringen, und möglichst zu automatisieren ...
6.1 Finden
Die Suche nach solchen Studien erfolgte ganz klassisch durch die Benutzung von Suchmaschinen, weil unklar war, wer als Herausgeber in Frage kommt – und ein Verzeichnis solcher Studien existiert natürlich ebenfalls nicht. Alle Dokumente liegen im Format PDF vor. Wir möchten herausfinden, welche Kernaussagen enthalten sind, wo die Publikationen jeweils ihren Schwerpunkt haben, und welche Gemeinsamkeiten und Unterschiede zwischen ihnen bestehen.
Die Liste der Publikationen, die für diese Analyse berücksichtigt wurden, zeigt Tabelle 1 oben - eine interaktive Tabelle mit gleichem Inhalt finden Sie hier.
Die folgende Abbildung - die uns dabei besonders aufgefallen ist - möchten wir Ihnen an dieser Stelle nicht vorenthalten.
Abbildung 1: Darstellung unterschiedlicher Arten von Energiespeichern in einem Diagramm (hier in besserer Auflösung), das auf der x-Achse die Speicherkapazität, auf der y-Achse die Entladedauer zeigt. Oben im Diagramm sind den Speicherkapazitäten typische Verbraucher zugeordnet. Man erkennt sehr schnell dasss eine kurzfristige Energiespeicherung von relativ geringer Kapazität elektrisch erfolgen kann, während eine langfristige Speicherung - oder eine Speicherung mit großer Kapazität eigentlich nur als Gas möglich ist. Quelle der Abbildung: 45-oth-de - siehe Tabelle oben).
6.2 Ablegen
Erstellen wir eine solche Analyse im Kundenauftrag, benutzen wir natürlich ebenfalls ein Content Management System (CMS), um die Dokumente abzulegen - und - durch die integrierte Suchmaschine - eine Suchfunktion zu ermöglichen.
6.3 Priorisieren
Man muss es klar sagen: Dokumente im Hinblick auf die eigenen Interessen zu priorisieren - da hilft eigentlich keine am Markt verfügbare Software. Man muss lesen (genau aus diesem Grund wurden ja die klassischen Lesetechniken entwickelt).
Weil dies aber genau der entscheidende Schritt ist - und noch dazu einer, der zeitlich sehr aufwendig ist - bietet Numberland seinen Kunden hier unterstützung an. Was dabei mit wenig Aufwand möglich ist - (und was überall immer wieder angewendet werden kann), zeigen wir hier.
6.3.1 Wir extrahieren den Text aus den PDF-Dokumenten
6.3.2 Wir zerlegen den Text in einzelne Worte
6.3.3 Wir Entfernen aus der so entstandenen Wortliste alles, was kein Substantiv ist
6.3.4 Wir wichten die Substantive nach ihrer Häufigkeit
6.3.5 Wir zeichnen alles zusammen in eine Karte: die Dokumente, die Substantive und die jeweilige Häufigkeit
Das Ergebnis sehen Sie in der nächsten Abbildung.
Abbildung 2: Gemensames Inhaltsverzeichnis für alle Dokumente in Form einer Heatmap
Ein bißchen Erläuterung ist zum Verständnis sicher noch notwendig.
Die Heatmap zeigt alle für die Analyse benutzten Stichworte (= Substantive, ca. 70) auf der x-Achse (unten), und alle untersuchten Dokumente (53) auf der y-Achse (links).
Daraus ergibt sich eine Tabelle mit 70x53 = 3710 Feldern, wobei jedes Feld die Häufigkeit des zugehörigen Stichworts im jeweiligen Dokument zeigt. Weil die Stichworte ganz unterschiedlich häufig vorkommen sind sie wie folgt normiert. Das Dokument, das ein Stichwort am häufigsten enthält, bekommt als Häufigkeit in der Tabelle den Wert 1. Die Häufigkeit des gleichen Stichworts in den anderen Dokumenten wird auf diesen Wert bezogen (ein Dokument, in dem das gleiche Stichwort also nur halb so häufig vorkommt, erhält dann im zugehörigen Stichwortfeld den Wert 0,5, usw. Je Häufiger ein Stichwort vorkommt, desto heller ist die für die Darstellung verwendete Farbe. Kommt ein Stichwort in einem Dokument gar nicht vor, belibt das Feld leer (= weiß).
Sowohl oberhalb der Tabelle, als auch auf der rechten Seite ist etwas dargestellt, was wie eine sich immer weiter verzweigende Wurzel aussieht. Die "untersten" Bereiche der beiden Wurzeln sind dabei verschieden gefärbt (die Farbskala der Legende ganz rechts bezieht sich nur auf die Farben der Zellen, nicht auf diese "Wurzeln").
Diese beiden "Wurzeln" zeigen das Ergebnis einer sogenannten Clusteranalyse, mit deren Hilfe Dokumente (oder Stichworte) nach ihrer inhaltlichen Ähnlichkeit sortiert werden können. Inhaltlich ähnliches wird räumlich nahe beieinander dargestellt. Man beginnt dabei im Fall der 53 Dokumente mit genau diesen 53 Individuen, und fügt im ersten Schritt die beiden zusammen, die sich am ähnlichsten sind. Aus 53 Dokumenten entstehen so 51 Dokumente und ein Cluster aus zwei Dokumenten (= 52 Individuen). Das Verfahren wird so lange wiederholt, bis aus 53 Dokumenten ein einziges Cluster entstanden ist. Die Länge des "Zweiges" von einer Vereinigungsstufe bis zur nächsten ist dabei ein Maß für den inhaltlichen Abstand.
Für die Berechnung der Heatmap wird dieses Verfahren sowohl auf die Dokumente, als auch auf die Stichworte angewandt.
Mit dier interaktiven Heatmap hat man darüber hinaus folgende Möglichkeiten:
- Durch Positionierung der Maus auf einem Feld der Tabelle werden Details angezeigt,
- Durch das Markieren eines Bereiches wird der entsprechende Teil der Tabelle vergößert
- am oberen rechten Rand der Heatmap befinden sich weitere Navigationselemente.
6.3.6 Was fällt auf
- Ganz offensichtlich gibt es Themen, die nur von wenigen Studien überhaupt behandelt werden (die Spalte des zugehörigen Stichworts enthält viele weiße Felder, z. B. Elektrolyse).
- Ebenso offensichtlich gibt es auch Themenkomplexe, für die das zutrifft (zugehörige Dokumente stehen eher im oberen Bereich der Tabelle; ein offensichtlich wenig behandelter Themenkomplex betrifft z. B. die Stichworte Stromversorgung, EEG, Planung).
- Neben spezialisierten Studien (= nur eines oder wenige gelbe Felder) gibt es welche, die sich zu einer Vielzahl von Themen umfassend äußern (= viele gelbe Felder).
- usw. - Sie finden ganz sicher weitere Details.
Die Heatmap kann daher als übergeordnetes Inhaltsverzeichnis für die gesamte Dokumentkollektion benutzt werden, weil man sofort sieht, welche Studien man zum welchem Thema lesen sollte, und welche nicht.
6.4 Wiederfinden
Indem wir - bei einem Kundenauftrag - Dokumente in einem CMS mit integrierter Suchfunktion ablegen, lassen sie sich durch die Eingabe von Stichworten natürlich wieder finden.
Weil man aber nur suchen kann, was man bereits kennt, steigt die Wahrscheinlichkeit, dass Zusammenhänge, die einem unbekannt sind, nicht gefunden werden, mit der Anzahl der Dokument ziemlich sehr stark an. Eine Suchfunktion, die alleine aus einem Index und einem Eingabefeld besteht, hilft deswegen nur bedingt weiter.
Weil das so ist, erstellen wir zusätzlich einen von Menschen lesbaren Volltextindex,
Abbildung 3: Stichworte (wieder nur Substantive) für einen interaktiven Volltextindex. Die Auswahl der Stichworte aus den Dokumenten erfolgt automatisch. Die interaktive Stichworteliste in folgender Tabelle enthält exemplarisch die 250 häufigsten Substantive - aus über 60.000 Substantiven). Die Tabelle umfasst drei Spalten mit den Inhalten "Zeilennummer", "Stichwort" und "Häufigkeit".
wie er in jedem guten Fachbuch am Ende enthalten ist. Ein Benutzer kann den Index durchsehen, sich inspirieren lassen, bestimmte Worte anklicken, und erhält so relevante Dokumente.
6.5 Sortieren und sichten
Unterschiedlichste tabellarische und grafische Darstellungen können dazu benutzt werden, eine Vielzahl von Dokumenten besser als bisher zu sortieren und zu sichten - zwei Beispiele von vielen (interaktive Tabellen, Heatmap) sehen sie hier. Viele weitere sind möglich.
6.6 Verstehen
Auch das Verstehen kann man mit geeigneten Algorithmen unterstützen - obwohl man sich so etwas im ersten Moment eigentlich gar nicht vorstellen kann.
Um das Verstehen zu unterstützen, zerlegen wir die untersuchten Dokumente nicht in einzelne Worte, sondern in Sätze. Anschließend wählen wir aus der Stichwortliste (vgl. 6.4) die Worte aus, die von Interesse sind, und schreiben alle Sätze, in denen das Stichwort vorkommt, wiederum in eine interaktive Tabelle.
Die nächste Abbildung zeigt ein exemplarisches Ergebnis für das Stichwort "Batterie".
Abbildung 4. Sätze, die das Stichwort "Batterie" enthalten. Die Tabelle enthält drei Spalten mit den Inhalten "Zeilennummer im Dokument", "Dokumentname" und "Satzinhalt".
Die interaktive Form der Tabelle finden Sie, wenn Sie diesem Link folgen.
6.7 Schlüsse ziehen
Natürlich gibt es in der auch Möglichkeiten, die Aufgabe "Schlüsse ziehen" mit maschinellem Lernen zu unterstützen. Die Darstellung, was möglich ist und wie es geht, heben wir uns aber für einen weitere Artikel auf.