Korpora und Quellen für verschiedene Forschungszwecke
ältere/klassische Korpora
- Das Browncorpus ist sozusagen das älteste Korpus,
das für die maschinelle Sprachverarbeitung bereitgestellt wurde. Es ist stark geprägt von den damaligen (1960er)
technischen Möglichkeiten. Dennoch ist es immer noch ein wichtiges Korpus, auch weil sich die Entwickler damals
aufgrund der Beschränkungen gründlich Gedanken über die Auswahl der Texte machen mussten.
- Das Limas-Korpus ist sozusagen die deutsche Variante
des Brown-Korpus und enthält eine ausgewogene Textsammlung verschiedener Textsorten aus der Zeit Anfang der 1970er Jahre.
Im Unterschied zum Brown-Korpus ist es online verfügbar und man kann frei recherchieren, was insbesondere für
linguistische Zwecke geeignet ist. Die Datenquelle ist nicht downloadbar.
- Das British National Corpus ist eine
große Wortsammlung von Beispielen schriftlicher (90%) und mündlicher (10%) gesprochener Sprache verschiedener Quellen.
Es ist TEI-kodiert und damit annotiert auf lexikalischer und wortartenbezogener Ebene.
Interessante fremdsprachige Korpora
- Trains ist ein englischsprachiges Dialogkorpus,
das für Frachtverkehr auf der Schiene erhoben wurde. Die Datenerhebung fand in mehreren Schüben statt,
wobei ein großer Teil als Ton und Transkript erhältlich ist. Das Szenario bestand aus einem Sprecher,
der ein Anliegen hatte und einem Sprecher, der Auskunft gab (nicht aber Woz-Situation)
- Das Helsinki-Korpus besteht aus
zwei verschiedenen Teilkorpora aus drei Sprachstufen des Englischen, welche syntaktisch
annotiert sind. Es wurde vor allem für historische Forschungszwecke zusammengestellt.
- Das Penn Treebank Projekt stellt
eine auf mehreren sprachlichen Ebenen annotierte Sammlung verschiedener Textsorten, die ursprünglich für
das DARPA-Projekt gesammelt wurde, zur Verfügung. Die CD enthält das mit einem eigenen Tag-set getaggte
Brown-Korpus und Texte aus dem Wall Street Journal aus 1989, sowie verschiedene kleinere Sammlungen
(ATIS - AirTravelInformationService, IBM-Manuals...).
Deutschsprachige Korpora
Textkorpora
allgemein (ggf. mit Zugriffswerkzeugen)
- Das IDS sammelt mehrere Korpora, die verschiedenen
Zwecken dienen. Cosmas sagt von sich, daß es das größte deutschsprachige Monitorkorpus ist. Es werden
schriftsprachliche Quellen zusammengeführt, die individuell zusammensortiert werden können und für die es
verschiedene Zugriffswerkzeuge gibt
- Das Europarl-Korpus ist ein Parallelkorpus,
das die Protokolle des Europaparlaments in verschiedenen Übersetzungen enthält.
Neuere Ratsprotokolle kann man sich direkt vom Europaparlament (idR. als pdf für jede Sprache einzeln)
beschaffen. Ein Projekt, das die Daten in Kombination mit verschiedenen Wörterbüchern aufbereitet und im
Netz verfügbar macht ist DictData
- Das Projekt Schweizer Textkorpus ist Teil
eines internationalen Forschungsvorhabens, welches das Ziel verfolgt, die deutsche Standardsprache des
20. Jahrhunderts ausgewogen zu erfassen und online zugänglich zu machen, indem deutschsprachige Texte aller Art
digitalisiert werden (Zeitungsartikel, Werbung, Formulare, Anleitungen, Ratgeber, populäre Fachliteratur,
Jugend- und Trivialliteratur, Belletristik etc.).
- Das DWDS ist ein von der DFG gefördertes Projekt, das knapp
10 verschiedene Textkorpora erstellt hat. Die Korpora sind lemmatisiert, mit Wortarteninformationen annotiert
und verfügen über verschiedene Suchfunktionen. So kann man entweder Wörterbuchartikel oder Kollokationen oder
zeitliche Entwicklungen anzeigen lassen und auch exportieren.
- Das AAC soll eine komplex strukturierte Sammlung von
elektronischen Texten zur Sprache und Literatur des 19. und 20. Jahrhunderts werden, die systematisch und
wissenschaftlich fundiert von der Österreichischen Akademie der Wissenschaften erstellt wird und stufenweise
online verfügbar gemacht werden soll.
- Deutsch Diachron Digital ist ein
historisches Referenzkorpus für das Deutsche. Das Korpus ist im Entstehen begriffen und soll repräsentativ für
historische Sprachstufen sein.
- Das Kali-Korpus ist ein teilannotiertes diachrones Korpus des Deutschen für Forschung und Lehre.
Es handelt sich um Texte von den Anfängen bis zur Gegenwart. Die Textauswahl und Aufbereitung wie auch
die linguistische Annotation und Glossierung sind noch nicht abgeschlossen. Die Texte werden teilweise
manuell digitalisiert und automatisch tokenisiert.
- Die Ulmer Textbank verfügt über das weltweit größte Computerarchiv mit Psychotherapie-Texten. Es handelt
sich um therapeutische Gespräche, Berichte über Behandlungen und andere Texte aus dem psychotherapeutischen Umfeld.
Vielfach sind auch Ton- und Videoaufnahmen vorhanden. Es gibt ein Textbank-Verwaltungssystem, das als Ulmer
Textbank für Forschungsvorhaben in Ulm sowie im weiteren In- und Ausland bereitgestellt wird.
- Es gibt für viele Zeitungen und Zeitschriften Archive,
die mit mehr oder weniger finanziellem Aufwand bezogen werden können. Viele Zeitungen haben ein Artikel-Archiv,
das eine Online-Suche erlaubt. Auch die kompletten Texte können oft bezogen werden.
Annotierte Korpora, bzw. annotierte Quellen
- Das Projekt hat es sich zur Aufgabe gemacht, ein großes,
domänenunabhängiges Lexikon zur Verfügung zu stellen, das semantische und syntaktische Informationen bietet und zwar in
Form von Frames. Es sollen Methoden zur Annotation bereitgestellt werden und as soll der Nutzen der Frame-Semantik-Annotation
bei praktischen natürlichsprachlichen Anwendungen (natural language processing - NLPs) überprüft werden
- Das NEGRA Korpus Version 2 besteht aus deutschen Zeitungstexten
aus der Frankfurter Rundschau, die mit Parts-of-Speech annotiert wurden. Dieses Korpus wurde erweitert, ebenfalls mit
Parts-of-Speech versehen und vollständig mit syntaktischen Strukturen annotiert. Im Projekt wurden nebenläufige constraintbasierte und kaskadierte statistische
Methoden für ein hybrides Modell der syntaktischen Verarbeitung entwickelt.
- Die Tübinger Baumbank des Deutschen / Schriftsprache (TüBa-D/Z)
ist ein syntaktisch annotiertes Korpus auf der Grundlage
der Zeitung "die tageszeitung" (taz). Die Annotation erfolgte von Hand mit einem Tool aus Saarbrücken (Annotate), das für
NEGRA schon im Einsatz war. Die Annotation ist (weitestgehend) theorieunabhängig. Das Annotationsschema unterscheidet vier
Ebenen syntaktischer Konstituenz: die lexikalische Ebene, die phrasale Ebene, die Ebene der topologischen Felder und die Satzebene.
- Das Berkeley FrameNet Projekt erstellt ein lexikalisches
Online-Hilfsmittel für Englisch, korpusgestützt und auf Framesemantik basierend. Das Ziel ist es, die semantischen und
syntaktischen Kombinationsmöglichkeiten (Valenzen) jedes Wortes in jeder Teilbedeutung zu dokumentieren. Dies geschieht
durch computergestützte Annotation der Beispielsätze und automatische Sortierung der Annotations-Resultate.
- Ziel des Mercurius-Projekts ist es, eine Baumbank für das
Frühneuhochdeutsche aufzubauen. Erster, namengebender Baustein
der Baumbank ist ein Jahrgang der in Hamburg erschienen Zeitung 'Mercurius' (1667) mit einem Umfang von 130.000 Wortformen
und 7.500 Sätzen. Die syntaktische Annotation erfolgt halbautomatisch mittels 'Annotate', einem Annotationswerkzeug, das an
der Universität des Saarlandes entwickelt worden ist.
- Das Frühneuhochdeutschkorpus
entstand zwischen 1972 und 1985 an der Bonner Forschungsstelle 'Frühneuhochdeutsch' im Rahmen des
Projekts 'Flexionsmorphologie des Frühneuhochdeutschen'. Es diente als Materialgrundlage für die Erarbeitung mehrere Bände der
Grammatik des Frühneuhochdeutschen.
- Multext besteht aus mehreren Teilprojekten, die
Parallelkorpora aus vielen west- und osteuropäischen Sprachen zur maschinellen Sprachverarbeitung bieten.
Die Texte sind morpho-syntaktisch auf TEI-Basis annotiert und zum großen Teil frei
verfügbar. Außerdem bietet das Gesamtprojekt zahlreiche Tools zur Sprachverarbeitung (z.B. Lexikal Access Tool zur
Wortartenannotation, POS-disambiguator)
- KOD ist eine auf privater Initiative beruhende Kunstsprache, die zur
weltweiten Verständigung dienen soll. Dabei besteht
es aus einem Wortschatz, der für jede Bedeutungseinheit ein unverwechselbares Wort, KOD-Lexem, vorsieht, und aus
Darstellungsmitteln für grammatische Funktionen, sogenannten KOD-Markern.
Wörterbücher
- Das IDS sammelt mehrere Korpora, die verschiedenen
Zwecken dienen. Elexiko ist ein korpusbasiertes Online-Wörterbuch, das gerade im Aufbau begriffen ist.
- Begleitend zu einem mittlerweile abgeschlossenen DFG-Projekt wurde ein umfassendes Korpus des deutschen Wortschatzes als
Vollformenlexikon erstellt. Die in den letzten Jahren aufgebaute Lexikondatenbank auf CD-ROM wurde übers Internet verfügbar
gemacht und so einem breiten Interessentenkreis zur Bearbeitung und Ergänzung zur Verfügung gestellt. Grundidee des Vorhabens
ist die Kombination einer Nutzung dezentralen Expertenwissens auf der Basis einer zentralen Datenbankverwaltung.
- Der Hauptfokus der Lexikon- und Textcorpora-Gruppe am IMS ist die
Erstellung von großen, hochqualitativen Lexika für
die Sprachverarbeitung. IMSLex, ein Lexikon für das Deutsche mit morphosyntaktischen und Subkategorisierunginformationen ist
verfügbar. Zusätzlich sind verschiedene Arten von Worthäufigkeitslisten und lexikalischer Daten mit semantischen Annotationen
sowie einige Tools zur Sprachverarbeitung erstellt worden.
- Das WordNet ist ein seit 1985 am Cognitive Science Laboratory
der Princeton University entwickelter Wortschatz der englischen Sprache. WordNet besteht aus einer lexikalischen Datenbank,
die semantische und lexikalische Beziehungen zwischen den Wörtern enthält.
Diese sind nach psycholinguistischen Erkenntnissen entworfen, da das WordNet ursprünglich entwickelt wurde, um natürlichsprachliche
Texte für Computer verständlich zu machen. Die Datenbank, die frei durchsuchbar und mitsamt Software kostenlos verfügbar ist,
wird auch für andere Zwecke eingesetzt.
- Seit über 100 Jahren ist der KLUGE das maßgebliche Wörterbuch für Herkunft und Geschichte der Wörter der deutschen Sprache.
1883 zum ersten Mal erschienen und seitdem kontinuierlich gepflegt, erklärt der KLUGE die Entstehungs- und Bedeutungsgeschichte
von ca. 13.000 Wörtern und ins Deutsche eingeflossenen Fremdwörtern. Er ist damit einerseits für Sprachwissenschaftler
und -historiker ein unschätzbares Hilfsmittel. Andererseits ist er eine bewährte Fundgrube für jeden, der sich für die
etymologischen Ursprünge unseres Wortschatzes interessiert. In der 24. Auflage auch auf CD.
- Mit seinem einzigartigen Strukturierungsprinzip stellt der Dornseiff ein unverzichtbares Hilfsmittel für jeden Schreibenden
dar, der bedeutungsverwandte Wörter (Synonyme) sucht, um seine Texte präziser und abwechslungsreicher zu formulieren. Über die
stilistische Praxis hinaus ermöglicht der Dornseiff dem Sprachwissenschaftler differenzierte Wortschatzanalysen. Der Dornseiff
bildet den gesamten deutschen Wortschatz nach Sachgruppen geordnet ab, d. h. nicht alphabetisch.
- Java APIs, die Wikipedia und Wiktionary als stets aktuelle, sehr umfassendekollaborative Ressourcen erschließen, um semantisches Wissen über Wörter zu gewinnen.
- Es gibt inzwischen verschiedene
historische, z.B. mittelhochdeutsche Wörterbücher in digitaler Form. Die Daten sind
unterschiedlich kodiert und in unterschiedlicher Form verfügbar.
- Viele gedruckte Wörterbücher werden zumindest
in Auszügen auch online veröffentlicht. Außerdem existieren unterschiedliche kleinere, oft auch von Laien verfasste Sammlungen von
Wörtern oder anderen Sprachlichen Ressourcen.
Tonkorpora
- Verbmobil war ein langfristig angelegtes Leitvorhaben des Bundesministeriums für Bildung und Forschung, BMBF. Das
Verbmobil-System erkennt gesprochene Spontansprache, analysiert die Eingabe, übersetzt sie in eine Fremdsprache, erzeugt einen
Satz und spricht ihn aus. Im Rahmen der Forschung wurden umfangreiche Tondokumente (dialogische, spontansprachliche Daten)
aufgezeichnet, die gegen Gebühr verfügbar sind. Es gab zahlreiche Projektpartner an Universitäten und Forschungseinrichtungen
in ganz Deutschland
- SpeechDat ist ein von der EU gefördertes Projekt zur Sammlung von Telefonsprache in 15 Ländern Europas. Diese
Sprachdatensammlungen dienen der Entwicklung von Spracherkennern für das Telefon. Spracherkenner sind Computerprogramme,
die gesprochene Sprache verstehen. Die deutsche SpeechDat Sprachdatensammlung umfaßt 4000 Sprecher über das normale
Telefonnetz und 1000 Sprecher über das Mobiltelefonnetz
- Ziel des Projektes SmartKom war die Entwicklung einer selbsterklärenden, benutzeradaptiven Mensch-Computer-Schnittstelle,
die sprachliche und gestische Eingaben interpretiert, sowie die Mimik des Nutzers analysiert. Das Institut für Phonetik und
Sprachliche Kommunikation sammelte Daten und evaluierte das Systems.
- Im Rahmen des BITS-Projekts hat das Bayerische
Archiv für Sprachsynthese (BAS) zwei Korpora für die Sprachsynthese des Deutschen erstellt. Das erste Korpus erlaubt eine
Sprachsynthese auf der Basis von Diphonen, das zweite eine Synthese mittels Unit Selection, d.h. auf der Basis einer Auswahl
unterschiedlich langer Einheiten. Das Diphonkorpus umfasst 2795 Diphonkombinationen, gesprochen in neutralen Logatomen, das
Unit Selection-Korpus 1683 gelesene Sätze.
- Das IDS sammelt mehrere Korpora, die
verschiedenen Zwecken dienen. Das Archiv für gesprochenes Deutsch enthält varietätenbezogene (dialektale) Daten, die teilweise
transkribiert sind und in denen öffentlich recherchiert werden kann. Es sollen neue Daten erhoben werden (über I-Net)
- Das Korpus enthält neben Transkriptionen von Aufnahmen gesprochener
deutscher Sprache auch einige fremdsprachige
Transkriptionen (Türkisch, Französisch u.a.). Die Transkriptionen sind mit dem in Hamburg entwickelten Transkriptionsprogramm
SYNCWRITER (auf Macintosh-Betriebssystem) erstellt worden.
- Die Datenbank wurde im Rahmen des Verbmobil-Projekts entwickelt. Ziel ist es, verschiedene Transkriptionen in einer Datenbank
zu erfassen, wobei der Schwerpunkt auf gesprochener, natürlicher Sprache liegt. Durch die datentechnische Erfassungen ist eine
gezielte Suche in den Daten möglich.
Korpussammlungen
- An der TU München werden Tonkorpora gesammelt und der Öffentlichkeit (gegen Entgelt) zur Verfügung gestellt.
Einige Korpora werden auch von den Mitarbeitern selbst erstellt und z.T. kostenlos bereitgestellt.
- ELRA wurde 1995 als gemeinnützige Organisation in Luxemburg im Februar 1995 gegründet
und vertreibt nun verschiedene Sprachressourcen zur Sprachverarbeitung. Dazu zählen beispielsweise gesprochen Daten, Lexika, terminologische
Datenbanken, u.ä.
- OPUS sammelt übersetzte Texte im Netz, bereitet die Texte auf um linguistische Daten anzufügen und die Öffentlichkeit mit
einem frei zugänglichen parallelen Korpus zu versorgen. OPUS basiert auf Open-Source Technologie und wird auch als Open-Source Projekt
geliefert. Beispielsweise sind die Texte des Europäischen Parlaments enthalten (EUROPARL)
- Amerikanischer Zusammenschluss von Firmen Universitäten und staatlichen Stellen,
die schwerpunktmäßig gesprochene Korpora vertreiben. Mitgliedschaft für 2000,-/Jahr für nicht-kommerzielle Unternehmen,
3500,-/Jahr für Subskriptionsmitgliedschaft. Als Standardmitglied kann man bis zu 16 Korpora im Jahr bestellen.
- Das Project Gutenberg ist eine im Internet beheimatete Bibliothek freier elektronischer Bücher. Darüber hinaus enthält die
Bibliothek auch akustische Medien und Daten. Die meisten dort verfügbaren Dateien sind Gemeingut ohne Copyright. Zudem sind einige
Dateien anzutreffen, die unter einem Copyright stehen, deren Autoren bzw. Urheber jedoch ihre Zustimmung zur Aufnahme beim
Project Gutenberg gegeben haben. (Vorsicht nicht zu verwechseln mit dem deutschen Projekt Gutenberg)
- Auf dem Titus-Server werden Texte aus indogermanistisch relevanten Sprachen zur Verfügung gestellt.
Alle Texte, die über http geladen werden können, dürfen frei für wissenschaftliche Zwecke genutzt werden, vorausgesetzt, sie
werden in daraus resultierenden Veröffentlichungen als Quellen unter Nennung ihrer Bearbeiter/innen und des Erstellungsdatums zitiert.
Außerdem bietet Titus umfangreiche Suchmöglichkeiten und verschiedene Tools (z.B. Zeichensätze) an.
- Das Internetportal zur deutschen und lateinischen Literatur im Mittelalter
- Hierbei handelt es sich um eine ständig wachsende Textsammlung vorwiegend historischer deutscher
und anderssprachiger Texte von den Anfängen der Schreibung an. Die Texte sind nach Jahrhunderten gegliedert und liegen als html-files vor.
- Kommerzieller Anbieter für Digitale Medien. Bücher, Wörterbücher, Bibliographien, Nachschlagewerke, etc. zahlreicher Fachgebiete.
Literatur
(in Auswahl)
- Armstrong, Susan: Natural language processing using very large corpora, Dordrecht [u.a.], 1999
- Bausch, Karl-Heinz: Wandel im gesprochenen Deutsch, Zum diachronen Vergleich von Korpora gesprochener
Sprache am Beispiel des Rhein-Neckar-Raums, Mannheim, 2000
- Blumenthal, Peter: Collocations, corpus, dictionnaires, Paris, 2006
- Boguraev, Bran: Corpus processing for lexical acquisition, Cambridge/Massachusets [u.a.], 1996
- Burger, Harald; Dimitrij Dobrovolski (Hrsg.): Phraseologie, ein internationales Handbuch
zeitgenössischer Forschung, Berlin, 2004
- Carstensen, Kai-Uwe et al: Computerlinguistik und Sprachtechnologie, Eine Einführung, Heidelberg,
2004
- Eckle-Kohler, Judith: Linguistisches Wissen zur automatischen Lexikon-Akquisition aus deutschen Textcorpora, Berlin, 1999
- Keil, Martina: Wort für Wort, Repräsentation und Verarbeitung verbaler Phraseologismen (Phraseo-Lex),
Tübingen, 1997
- Lehr, Andrea: Kollokationen und maschinenlesbare Korpora, ein operationales Analysemodell zum Aufbau
lexikalischer Netze, Tübingen, 1996
- Lemnitzer, Lothar; Heike Zinsmeister: Korpuslinguistik, Eine Einführung, Tübingen, 2006
- Lenz, Friedrich: Corpuslinguistik in Lexik und Grammatik, Tübingen, 2005
- Lenz, Susanne: Korpuslinguistik, Heidelberg, 2000
- Lobin, Henning; Lothar Lemnitzer (Hrsg.): Texttechnologie, Perspektiven und Anwendungen, Tübingen:,
2004
- Nass, Clifford; Scott Brave: Wired for Speech, How Voice Activates and Advances the Human-Computer-Relationship,
London, 2005
- Reeves, Byron; Clifford Ivar Nass: The media equation, how people treat computers, television, and new media
like real people and places, Stanford/Kalifornien, 1998
- Scherer, Carmen: Korpuslinguistik, Kurze Einführungen in die germanistische Linguistik 2, Heidelberg,2006
- Schlobinski, Peter; Andr Kramer; Timm Lehmberg: Spracherkennung/Diktierprogramme und orthografische Fehler.,
In: Sprache als Form. Festschrift für Utz Maas zum 60. Geburtstag, Opladen, 2002.
- Schwitalla, Johannes: Korpuslinguistik deutsch: synchron - diachron - kontrastiv, Würzburger Kolloquium 2003,
Tübingen, 2005
- Sinclair, John McHardy: Corpus, concordance, collocation, Oxford u.a., 1991
- Souter, Clive: Corpus-based computational linguistics, Amsterdam u.a., 1993
- Stanescu, Speranta: Verbvalenz und Satzbaupläne, eine deutsch-rumänische kontrastive Studie, Heidelberg, 1986
- Steyer, Kathrin: Wortverbindungen - mehr oder weniger fest, Berlin [u.a.], 2004
- Steyer, Kathrin: Korpus, Statistik, Kookkurrenz, Lässt sich Idiomatisches "berechnen"? In: Burger, Harald/Häcki
Buhofer, Annelies/Gréciano, Gertrud (Hrsg.): Flut von Texten Vielfalt der Kulturen, Ascona 2001 zur Methodologie und
Kulturspezifik der Phraseologie, Baltmannsweiler, (= Phraseologie und Parömiologie, 14),2003, S. 33-46
Dokument erstellt von Sibylle Reichel, Juni 2007