Sie befinden sich hierKognitionswissenschaft / Linguistik / Text Mining

Text Mining

Das Text Mining ist ist ein Teilgebiet der Texttechnologie (die wiederum der Computerlinguistik zuzurechnen ist). Anders als weitere texttechnologische Verfahren, die etwa auf Ontologien, d.h. auf realisierte, standardisierte Formalismen (zumeist mit Markups aus der XML) operieren, verwendet das Text Mining verstärkt statistische Verfahren zur automatischen Textanalyse. Ziel des Text Mining ist es, an natürlichen Texten anzusetzen, die naturgemäß aus unstrukturierten Daten bestehen. Ein wesentlicher Vorteil besteht darin, dass die Acquisition oder Extraktion von Wissen in Form von semantischen Relationen ohne allzu großen Aufwand erfolgen kann.

Linguistische Verfahren spielen für das Text Mining u.a. eine Rolle, um Ambiguitäten (Mehrdeutigkeiten) aufzulösen, aber auch, um komplexere  sprachliche Einheiten, d.h. Ausdrücke, die über die Wortgrenze hinaus gehen, zu erfassen. Hier stellen diskontinuierliche Konstituenten (Ausdrücke, deren Elemente im Satz nicht direkt aufeinander folgen (z.B. Ich stelle meinen Standpunkt wie folgt dar.) eine besondere Herausforderung dar.

Für die Kognitionswissenschaften spielt das Text Mining eine immer stärkere Rolle, indem seine Verfahren eingesetzt werden, um kognitive Phänomen zu simulieren. Textuelle (präziser: kohäsive) Relationen, etwa Synonyme, können etwa auf Basis eines der prominentesten Verfahren, der Latent Semantic Analysis, im Vergleich zu natürlichen Sprachbenutzern ähnlich gut erfassst werden. (vgl. Landauer et al [3])

[3] T. Landauer and P. Foltz and D. Laham. Introduction to Latent Semantic Analysis - In Discourse Processes, Vol. 25 pages 259-284 1998.