ASV Toolbox

Wissensrohstoff Text

Der größte Teil des Weltwissens ist in digital verfügbaren Texten beschrieben. Diese Texte stellen einen bedeutsamen Wissensrohstoff dar, doch wie kann dieses Wissen extrahiert werden? Lernen Sie in dieser aktualisierten und erweiterten Neuauflage des ersten deutschen Lehrbuches zu diesem Thema, wie digitaler Text mit Hilfe von Text Mining aufbereitet, verarbeitet und in Anwendungen genutzt werden kann.

Die ASV Online Toolbox ist eine Sammlung von Text-Mining-Algorithmen für den Einsatz in der Lehre und praktischen Anwendungen. Sie ist in den letzten Jahren am Lehrstuhl Automatische Sprachverarbeitung entstanden und wird u.a. im Rahmen der Forschungsinfrastruktur CLARIN-D genutzt. Neben Algorithmen für sprachstatistische Analysen, beispielsweise der Häufigkeitsverteilung von Wörtern in Texten (bekannt unter dem Namen Zipfsches Gesetz), umfasst die Sammlung auch Algorithmen für die morphologische Analyse und effiziente Speicherung von Wörtern, die Terminologie Extraktion sowie Algorithmen für verschiedene Arten von Wortähnlichkeiten auf der Grundlage von musterbasierten oder statistischen Ansätzen, insbesondere das Clustern und die Klassifikation von Wörtern.

Die dahinterliegenden theoretischen Konzepte und Grundlagen der Algorithmen können im Lehrbuch Wissensrohstoff Text: Eine Einführung in das Text Mining kennengelernt werden. Die Sammlung umfasst die folgenden Werkzeuge:

Language Statistics

Statistical analysis of language data.

Word Clustering

Clustering of words based on word graph data.

Morphological Baseform Reduction

Baseform reduction based on language models.

Text Classification

Classification of unknown text using corpora based models.

Term Extraction

Derive terms based on the word frequency measured in large corpora.