Information Extraction

Information ist das neue Platin der Forschung in der Wissenschaft. Und Dark Data …

Untersuchung haben gezeigt, dass heute etwa 90% der weltweit gespeicherten Information und Daten für die Steuerung von wirtschaftlich motivierten Prozessen ungenutzt bleiben. Diese gespeicherten Daten sind in einem Kontext zum Thema einer wissenschaftlichen Forschung oder auch eines Unternehmens zu betrachten. Sie sind im Schatten der eigentlich genutzten Information und Daten zu finden. Dark Data sind ein Fundus von Information, indem diese in einen Kontext zum Thema einer wissenschaftlichen Forschung gebracht werden und eine neue Perspektive auf die Entwicklung von Wissen bieten können. Bei textueller Information und Daten liegen basierend auf der digitalen Nutzung mindestens 95% der Information brach. Bei analogen Trägern von Information und Daten, also Bücher, Schriften, gedruckten Studien, etc. werden 98% für die digitale Nutzung nicht bereit gestellt. Lediglich Kataloge der Bibliotheken und Online-Systeme der Archive bieten einen von Hand erstellten oberflächlichen Überblick von Information zu analogen Publikationen an.

Doch genau diese textuell publizierte Information und Daten, unabhängig einer digitalen Repräsentation oder der analogen Druckausgabe, ist einer der wichtigsten Quellen an Wissen. Text hat den Vorteil, dass durch die logische Darstellung eines fachlichen Sachverhalts und die Antizipation auf eine Lösung hin, dieser jederzeit für die Recherche zur Verfügung steht. Text ist subjektiv aufgezeichnet. Der Autor will sein Wissen teilen und bietet die Möglichkeit seiner Idee und seinem gedanklichen Lösungsweg zu folgen. Diesen Lösungsweg in seinem eigenen Kontext an gedanklicher Herleitung seiner dem Leser obliegenden Lösung zu übernehmen oder diese dann sich weiter entwickeln zu lassen. Ein Text ist Anregung neues Wissen zu finden oder auf sich zukommen zu lassen.

Wissenschaftliche Texte haben eine eigene teilweise formalistisch definierte Sprache und den Gebrauch dergleichen. Die Sprache der biomedizinischen Forschung wird geprägt durch eine der Umgangssprache angelehnten künstlichen Sprache. Die Grammatik, Syntax, Semantik und Rhetorik sind der formalen Schreibsprache angelehnt, der Wortschatz hingegen ist geprägt der traditionellen Verwendung von Vokabeln lateinischen bzw. griechischen Ursprungs sowie der Einführung eines eigenen biomedizinisch modernen Wortgebrauchs, der in eigenen Thesauri veröffentlicht wird. Dieses sprachliche System wird als Grundwahrheit — Ground Truth — für die weitere Analyse von fachlich spezifischen Dokumente verwendet.

Linguistik ist der Schlüssel zum Verständnis von Wissen. Sprache transportiert Information, Daten und damit Wissen. Das maschinelle Lesen von Dokumenten ermöglicht auf der Basis eines Meta Thesaurus die Extraktion von Information — Information Extraction -. Dazu wird durch unterschiedliche Algorithmen der Text in seine Bestandteile durch Anwendung der Regeln der Grammatik, Syntax und Semantik zerlegt. Ein zweiter Aspekt der Analyse nimmt Bezug auf die sprachliche Repräsentation von Inhalt und dem emotionalen Zustand des Menschen, der ein Dokument abgefasst hat. Hierbei können indirekte Informationen identifiziert werden, sozusagen die Fähigkeit zwischen den Zeilen zu lesen. Zwischen dein Zeilen steht Information repräsentiert durch direkt wiedergegebene Information, die Inhalte aus welchen Gründen verschleiern soll. Um dazu konkrete Inhalte identifizieren und antizipieren zu können, wird in ersten Schritt eine Extraktion der Information vorgenommen, eine semantische Analyse der verwendeten Worte auf der Grundlage der zum Zeitpunkt der Aufzeichnung definierten Bedeutung vorgenommen und die identifizierte Information mit dem Pool bereits verarbeiteter Information in eine Beziehung gesetzt.

Maxim R. Garrtner