Sie befinden sich hierLinguistik Links / Korpuslinguistik

Korpuslinguistik

Textressourcen:

  • Projekt Gutenberg - Online-Ressource für Bücher, die in unterschiedlichen Formaten (z.B. HTML und Plain Text) verfügbar sind. Erspart einem die mühselige Konvertierung, etwa aus dem PDF-Format.
  • Project Gutenberg - Ähnlich dem Projekt Gutenberg zu sehen
  • Digento - Hierbei handelt es sich um einen kommerziellen Anbieter für digitale Medien, mit dem ich noch keine Erfahrung gemacht habe. Scheint jedoch recht interessant zu sein.  

Suchmaschinen für Linguisten und Korpora:

  • DWDS - Das digitale Wörterbuch der deutschen Sprache des 20. Jh. Weitere Korpora, wie etwa der Zeit-Corpus, sind verfügbar. Zudem gibt es neben Statistiken eine Export-Funktion.
  • WebCorp - Suchmaschine, mit der sich ein Korpus erstellen lässt, der Konkordanzen enthält. Es sind umfangreiche Optionen verfügbar.
  • COSMAS - Corpus Search, Analysis and Management System des Instituts für deutsche Sprache in Mannheim. Nach einer einfachen Registrierung bietet das System ausgezeichnete Möglichkeiten für Korpuslinguisten
  • Seite englischsprachiger Korpora (u.a. der Time Corpus und der British National Corpus)
  • Wortwarte - Hier werden täglich zehn Wochen- und Tageszeitungen ausgewertet, um so Neologismen zu extrahieren.

Möchte man das Web als Korpus verwenden, benötigt man einen WebSpider oder eine Suchmaschine, wie z.B. die folgenden:

  • Clusty - Cluster-basiertes Suchen; Clusty bietet zudem einige interessante Einstellungen an, etwa die Kombination unterschiedlicher Suchmaschinen.
  • XClustering - Erlaubt die themenbasierte Suche für deutschsprachige Seiten oder die deutsche Wikipedia. Es lassen sich bis zu 600 Ergebnisse auf einer Seite darstellen. 
  • Carrot Search - So etwas wie die englischsprachige Variante von XClustering

WebSpider:

  • WebSphinx - Ein WebCrawler, der sich durch eine gute Funktionalität auszeichnet. Geschrieben ist der WebSpider in Java.
  • Webcrawler Liste: Eine sehr umfangreiche Liste von Webcrawlern