Textressourcen:
- Projekt Gutenberg - Online-Ressource für Bücher, die in unterschiedlichen Formaten (z.B. HTML und Plain Text) verfügbar sind. Erspart einem die mühselige Konvertierung, etwa aus dem PDF-Format.
- Project Gutenberg - Ähnlich dem Projekt Gutenberg zu sehen
- Digento - Hierbei handelt es sich um einen kommerziellen Anbieter für digitale Medien, mit dem ich noch keine Erfahrung gemacht habe. Scheint jedoch recht interessant zu sein.
Suchmaschinen für Linguisten und Korpora:
- DWDS - Das digitale Wörterbuch der deutschen Sprache des 20. Jh. Weitere Korpora, wie etwa der Zeit-Corpus, sind verfügbar. Zudem gibt es neben Statistiken eine Export-Funktion.
- WebCorp - Suchmaschine, mit der sich ein Korpus erstellen lässt, der Konkordanzen enthält. Es sind umfangreiche Optionen verfügbar.
- COSMAS - Corpus Search, Analysis and Management System des Instituts für deutsche Sprache in Mannheim. Nach einer einfachen Registrierung bietet das System ausgezeichnete Möglichkeiten für Korpuslinguisten
- Seite englischsprachiger Korpora (u.a. der Time Corpus und der British National Corpus)
- Wortwarte - Hier werden täglich zehn Wochen- und Tageszeitungen ausgewertet, um so Neologismen zu extrahieren.
Möchte man das Web als Korpus verwenden, benötigt man einen WebSpider oder eine Suchmaschine, wie z.B. die folgenden:
- Clusty - Cluster-basiertes Suchen; Clusty bietet zudem einige interessante Einstellungen an, etwa die Kombination unterschiedlicher Suchmaschinen.
- XClustering - Erlaubt die themenbasierte Suche für deutschsprachige Seiten oder die deutsche Wikipedia. Es lassen sich bis zu 600 Ergebnisse auf einer Seite darstellen.
- Carrot Search - So etwas wie die englischsprachige Variante von XClustering
WebSpider:
- WebSphinx - Ein WebCrawler, der sich durch eine gute Funktionalität auszeichnet. Geschrieben ist der WebSpider in Java.
- Webcrawler Liste: Eine sehr umfangreiche Liste von Webcrawlern