Korpussammlung
Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen. Die Daten des Korpus sind digitalisiert, d.h. auf Rechnern gespeichert oder maschinenlesbar. Die Bestandteile des Korpus, die Texte oder Äußerungsfolgen, bestehen aus den Daten selber sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diese Daten zugeordnet sind.[1]
Viele Korpusprojekte bieten eine eigene Weboberfläche für die Untersuchung der Korpusdaten an, teilweise werden die Daten auch für den Download bereitgestellt. Mit unserer Korpusübersicht bei Studi.DH möchten wir Ihnen einen Überblick über bestehende Korpusprojekte bieten.
Für eine noch breitere Recherche können Sie sich aber zum Beispiel auch auf den Korpus-Websites der folgenden Institutionen umsehen:
- Eine Sammlung mündlicher Korpora im Deutschen gibt es beim Archiv für gesprochenes Deutsch (Leibniz-Institut für Deutsche Sprache).
- Textkorpora mit historischen und gegenwartssprachlichen Textsammlungen des Deutschen finden Sie beim DWDS (Digitales Wörterbuch der Deutschen Sprache).
- Textkorpora und Korpora mit (konzeptionell) mündlichen Sprachdaten sind im Verzeichnis von English-Corpora gesammelt.
- Eine spanischsprachige Korpussammlung bietet beispielsweise das Corpus del Español.
- Einen Überblick über italienische Korpora bietet der Fachinformationsdienst Romanistik.
[1] Lemnitzer, Lothar & Zinsmeister, Heike (2015): Korpuslinguistik. Eine Einführung. 3. Auflage. Tübingen: Narr.