Einführung in die Chinesische Korpuslinguistik 语料库语言学

Alice Cheng / Andreas Guder / Jinlei Zhong (überarbeitet 2025)

1. Einleitung

Für sprachwissenschaftliche Untersuchungen ist es im Allgemeinen notwendig, authentische Sprachäußerungen in die Analyse miteinzubeziehen, um grammatische Theorien aufzuzeigen, Hypothesen zu entwickeln oder Belege für Hypothesen vorzuweisen. Dazu müssen jedoch erst möglichst authentische Daten vorhanden sein, die erhoben, aufbereitet und ausgewertet werden. Um diesen Schritt zu umgehen, empfiehlt es sich, mit bereits existierenden Korpora zu arbeiten. Bei Korpora (Singular: das Korpus) handelt es sich um Sammlungen von sprachlichen Daten, die mit einer integrierten Suchmaschine ausgestattet sind und so das Erforschen der Verwendungskontexte und Verwendungsweisen bestimmter Wörter, grammatischer Strukturen oder Phrasen vereinfachen sollen. Die Nutzung von Korpora für sprachwissenschaftliche Zwecke wird als Korpuslinguistik bezeichnet. Eine korpusbasierte Analyse von Sprache kann unterschiedlichen Zielen dienen, wie etwa dem Fremdsprachenunterricht, der Dokumentation von Sprachen, der Erstellung von Wörterbüchern oder der maschinellen Sprachverarbeitung und Computerlinguistik (Lemnitzer/Zinmeister 2015, S. 14 f.).

Der vorliegende Text soll einen kurzen Einstieg in die Korpuslinguistik darstellen und die grundlegenden Fragen beantworten, wie: Was sind Korpora? Wie sind sie aufgebaut und wie erfolgt ihr Einsatz in der Forschung? Darüber hinaus wird eine Übersicht der online verfügbaren Chinesischkorpora bereitgestellt, um die Auswahl eines geeigneten Korpus für das eigene Forschungsvorhaben zu erleichtern.

2. Hauptteil

2.1 Beschreibung und Aufbau von Korpora

Bei einem Korpus handelt es sich allgemein um „eine Sammlung schriftlicher oder gesprochener Äußerungen.“ (Lemnitzer/Zinsmeister 2015, S. 13). In jüngerer Zeit findet zudem die Computerlesbarkeit als Kriterium für die Korpusdefinition zunehmend Berücksichtigung (vgl. Scherer 2015, S. 17). Die gesammelten Texte oder Äußerungen, die auch als Primärdaten bezeichnet werden, können mit Metadaten angereichert werden, die Auskunft über Autorenschaft, Entstehungszeitpunkt und Quelle der Primärdaten geben. Zudem gibt es linguistische Annotationen, die je nach Fragestellung und Zweck des Korpus variieren können (vgl. Lemnitzer/Zinsmeister 2015, S. 13). Darüber hinaus sind Korpora mit einem integrierten Korpusrecherchesystem ausgestattet, um Sprachanalysen durchzuführen. Ein Korpus unterscheidet sich folglich von einem Textarchiv dadurch, dass es eine Recherchesoftware und linguistische Annotationen enthält (vgl. Storrer 2011, S. 225). Für die Erstellung eines Korpus werden die Primärtexte zunächst in Einheiten wie Abschnitte, Sätze oder einzelne Worteinheiten segmentiert (tokenisierung) und anschließend mit Annotationskategorien (tags) versehen. Die zerlegten Einheiten, die nicht nur Wörter, sondern auch alle Satzzeichen, Zahlen und Symbole umfassen, werden token genannt. Der Beispielsatz to be or not to be that is the question enthält somit zehn token. Davon zu unterscheiden ist die ‚Wortform‘, bei der ausschließlich die Form des tokens betrachtet wird. Dabei werden gleiche Wortformen als „type“ gezählt. Demnach gibt es im oben genannten Beispielsatz acht types. Zudem gibt es noch den Begriff Lexem‘ oder ‚Lemma‘, welcher sich auf den semantischen Aspekt des Wortes bezieht. In flektierenden Sprachen enthalten Lexeme mehrere Wortformen, da unterschiedliche Flexionsendungen für ein Lexem vorhanden sind. Demzufolge gehören in dem Beispiel auch to be und is zu demselben Lexem. Der Satz enthält folglich sieben Lexeme (vgl. Storrer 2011, S. 217 f.). Die Recherche in Korpora basiert vorwiegend auf Wortformen. Um jedoch gleich aussehende Wortformen unterschiedlicher Lexeme (z. B. 多音字 polyphone Zeichen im Chinesischen) bei Suchergebnissen zu unterscheiden, z. B. 都 dōu mit der Bedeutung „alle“ und 都 von 首都 shǒudū „Hauptstadt“, wird die Wortarten-annotation, auch part-of-speech tag oder POS-tagging genannt, eingesetzt. Damit wird jedes token mit einem tag versehen, das für die jeweilige syntaktische Kategorie steht (vgl. Storrer 2011, S. 219). Mit dieser Annotation ist es beispielsweise möglich, 都 dōu in der Regel als Adverb und 都 als Nomen zu kategorisieren.

2.2 Datensammlung & Repräsentativität von Korpora

Es gibt zwei Arten von Korpora, die sich hinsichtlich ihrer Datensammlung voneinander unterscheiden: monitor corpus und balanced corpus, auch sample corpus genannt. Beim monitor corpus handelt es sich um ein Korpus, dessen Datenmenge kontinuierlich erweitert wird. Der Vorteil eines solchen monitor corpus ist die zunehmende Ausgewogenheit der Daten, da davon ausgegangen wird, dass das Korpus sich aufgrund der stetig wachsenden Daten selbst reguliert. Das balanced corpus hingegen enthält nur eine begrenzte, jedoch sorgfältig ausgewählte Datenmenge, die versucht, eine bestimmte Sprache während einer bestimmten Zeitspanne zu repräsentieren. Dies bedeutet, dass für die Untersuchung irrelevante Texte aussortiert und der Umfang des Korpus begrenzt wird. Einige Beispiele für balanced corpora sind der LOB (Lancaster-Oslo/Bergen) Korpus und die Korpora der Brown family. Sie basieren alle auf dem gleichen Korpusdesign und haben somit den gleichen Größenumfang von etwa 1 Million Wörtern sowie die gleiche Anzahl an Textsorten, die aus denselben oder ähnlichen thematischen Domänen (sampling frame) stammen. Solche balanced corpora ermöglichen neben diachronischen Untersuchungen von Sprachen auch Vergleiche zwischen Sprachen (vgl. McEnery/Hardie 2012, S. 8 f.). Zur Veranschaulichung bietet Scherer (2014) einen Überblick über die verschiedenen Arten von Korpora:

KriterienArten der Korpora
SpeichermediumComputerlesbares KorpusNicht computerlesbares Korpus
HierarchieGesamtkorpusTeilkorpus
Vollständigkeit der TexteVolltextkorpusProbenkorpus
AbgeschlossenheitStatisches KorpusMonitorkorpus
Aufbereitung des KorpusAnnotiertes KorpusNicht annotiertes Korpus
SprachmediumKorpus der geschriebenen SpracheKorpus der gesprochenen Sprache
Zeitlicher BezugKorpus der GegenwartsspracheHistorisches Korpus
Geltungsbereich des KorpusReferenzkorpusSpezialkorpus
Anzahl SprachenEinsprachiges KorpusMehrsprachiges Korpus
Abbildung 1: Arten der Korpora (in Anlehnung von Scherer 2014, S. 17)

2.3 Korpuslinguistik

Je nach Forschungsansatz und Erkenntnisinteresse unterscheidet sich der Einsatz von Korpora (siehe Tabelle 1): es gibt einen deduktiven, quantitativen Ansatz oder quantitativ-qualitativen Ansatz (corpus-based) zur direkten Gewinnung von Erkenntnissen und Theorien und den induktiven, korpusgesteuerten Ansatz (corpus-driven) zur Testung oder Exemplifizierung linguistischer Theorien. (McEnery/Hardie 2012, S. 6)

 Korpusbasiert quantitativKorpusbasiert, quantitativ-qualitativKorpusgestützt
Theoretischer Rahmen(nicht anwendbar)Kontextualismus (Firth)Strukturalismus (Saussure)/ Generative Grammatik (Chomsky)
Erkenntnis-theoretischer AnsatzExtrem empirischGemäßigt empirischRationalistisch
Primäre linguistische DomäneStatistische SprachmodelleSemantikSyntax
AnwendungsgebieteInformations-erschließung, Verarbeitung gesprochener SpracheLexikographie, Fremdsprachen-unterricht, Übersetzungs-wissenschaftTheoretische Linguistik
Tabelle 1: Korpusanalysen (verkürzt u. übernommen aus Lemnitzer/Zinsmeister 2015, S. 34)


Beim quantitativen Ansatz werden die Rohdaten eines Korpus verwendet, um quantitative Daten zu ermitteln, beispielsweise mit welcher absoluten oder relativen Häufigkeit ein bestimmtes Wort in einem Text oder dem Korpus vorkommt. Dieser Ansatz wird insbesondere im Anwendungsgebiet der Informationserschließung und der Verarbeitung gesprochener Sprache für texttechnologische bzw. computerlinguistische Anwendungen eingesetzt (Lemnitzer/Zinsmeister 2015, S. 35). Im Unterschied dazu ist das Ziel des quantitativ-qualitativen Ansatzes, nicht nur die Daten quantitativ zu erheben, sondern sie auch zu interpretieren, um Verallgemeinerungen aus den beobachtbaren Daten abzuleiten. Relevante Anwendungsgebiete sind hier die Lexikographie, der Fremdsprachenunterricht und die Übersetzungswissenschaft.  
Bei korpusgesteuerten Ansätzen werden die Korpusdaten meist nur herangezogen, um Sprachtheorien zu belegen, zu falsifizieren oder nach bestimmten syntaktischen Strukturen zu suchen. Aus diesem Grund beschränkt sich der Einsatzbereich des korpusgesteuerten Ansatzes eher auf die theoretische Linguistik (vgl. Lemnitzer/Zinsmeister 2015, S.37).

2.4 Forschungsfragen und Analysebeispiel

Hinsichtlich der chinesischen Sprache kann man mithilfe von Korpora beispielsweise untersuchen, in welchen Kontexten bestimmte Wörter oder Strukturen auftreten, wie sich die chinesische Sprache im Lauf der Zeit verändert oder welche Wortneuschöpfungen es gibt. Man kann auch verschiedene Textsorten anhand der in ihnen vorkommenden Wörter vergleichen.

Des Weiteren erlaubt die Analyse von Lernerkorpora die Untersuchung derjenigen grammatikalischen Fehler, die von Lernenden der chinesischen Sprache am häufigsten begangen werden. Auf diese Weise können die Ergebnisse dieser Fehleranalyse für die Entwicklung von Lehrmaterialien und didaktischen Methoden in der Fremdsprachendidaktik nutzbar gemacht werden.

Um die Verwendung einer quantitativ-qualitativen korpusbasierten Analyse vorzustellen, wird exemplarisch das Vorkommen der 把 Ba-Struktur im chinesischen Sprachgebrauch untersucht. Zunächst spielen für die Auswahl des Korpus folgende Aspekte eine Rolle: das Medium (schriftlich/mündlich), der Zeitraum, aus dem die sprachlichen Daten stammen, sowie Größe und die Textsorte(n) des Korpus, um eine maximale Validität der Analyse zu erreichen. Würde beispielsweise ein schriftliches Korpus herangezogen, das ausschließlich aus klassisch-literarischen Texten der Qing-Zeit bestünde, wäre das Ergebnis der Untersuchung weder valide noch repräsentativ für den gesamten Sprachgebrauch des Chinesischen. Gleiches gilt für die Größe des Korpus: Je größer und ausgewogener die Datenmenge des Korpus, desto reliabler ist das Analyseergebnis.

Im vorliegenden Fall beschränkt sich unser Ziel auf die Analyse der Verwendung von 把 im schriftlichen Chinesisch des 21. Jahrhunderts. Dafür ist eine ausgewogene und repräsentative Stichprobe notwendig. Basierend auf diesen Überlegungen wurde das UCLA Korpus (Xu/Wu 2014) ausgewählt, welches aufgrund des BROWN family Korpusdesigns verschiedene Textsorten und Genres enthält und möglichst ausgewogen gestaltet wurde.

Gibt man nun 把 in die Suchleiste des UCLA Korpus ein, erscheinen in der Treffermenge alle Ergebnisse, die die Wortform 把 enthalten. Neben der grammatischen Ba-Struktur werden folglich auch 把 als Zähleinheitswort (ZEW) und Lexeme wie 把握,把式,把戏 etc. aufgelistet. Möchte man nur die 把-Struktur finden, lohnt es sich bei der Funktion „Word lookup“ zu suchen, wie viele Wortformen das Zeichen 把 enthalten.

Abbildung 2: Ausschnitt der Word lookup Funktion des UCLA Korpus

Gibt man bei der Suche „List by word-form and tag“ an, werden die Ergebnisse mit ihren syntaktischen Kategorien angezeigt. Unter den Treffern lässt sich das syntaktische 把 nun leicht herausfiltern (85,24%). Den Ergebnissen kann darüber hinaus entnommen werden, mit welcher Häufigkeit das Zeichen 把 in den jeweiligen Wortformen und syntaktischen Kategorien auftritt. Klickt man auf 把 _p, werden ausschließlich Sätze angezeigt, die die 把-Struktur enthalten.

Abbildung 3: Ausschnitt der Suchergebnisse nach Verwendung der Word Lookup Funktion für 把

Eine andere Möglichkeit, die Suchanfrage zu präzisieren, ist die Untersuchung der Syntax. Man kann mit bestimmten Eingabemustern, wie bei einer Suchmaschine, die Suche eingrenzen (siehe dazu auch Storrer 2011, S. 222f und Lemnitzer/Zinsmeister 2015, S. 92f). Das UCLA Korpus enthält hierfür eine Übersicht der „simple query language syntax“, die bei der Eingabe der Suchanfrage aufgerufen werden kann. Für die Untersuchung der 把-Struktur kann bei der Suchmaske somit auch 把_p eingegeben werden, damit nur jene Wortformen mit der syntaktischen Einheit ‚Präposition‘ angezeigt werden. Damit werden 把 als ZEW oder Verb nicht in der Trefferliste aufgeführt.  

Abbildung 4: Ausschnitt einer Trefferliste zur Suchanfrage 把_p

Möchte man untersuchen, in welchen Textsorten die 把-Struktur auftritt, kann rechts oben unter „Distribution“ deren Verteilung angezeigt werden. In der Übersicht werden alle Kategorien sowie die jeweilige Trefferanzahl für die 把-Struktur aufgelistet.

Abbildung 5: Ergebnisse für Verteilung der 把-Struktur nach Textsorten

Aus der Tabelle geht hervor, dass die untersuchte Struktur in nahezu allen Textsorten auftritt. Lediglich in der Kategorie Reports and official government documents gibt es keinen Treffer. Des Weiteren kann anhand der Verteilung auch die relative Häufigkeit der 把- Struktur abgelesen werden. Am häufigsten kommt sie demnach in den literarischen populären Textsorten science fiction, humor und romance stories vor. Texte aus der Presse wie reportage, editorials und reviews, aber auch academic writing weisen einen vergleichsweise geringen Gebrauch der 把-Struktur auf.

Ausgehend von diesen Ergebnissen kann die Hypothese formuliert werden, dass die 把-Struktur in schriftlichen Texten besonders häufig in literarischen Unterhaltungstexten auftritt. In schriftsprachlichen Textsorten des gehobenen Registers wird 把 hingegen seltener verwendet. Zur weiteren Untersuchung könnte nun beispielsweise ein mündliches Korpus herangezogen werden, um den Gebrauch der 把-Struktur im mündlichen Chinesisch mit diesen Ergebnissen zu vergleichen. Des Weiteren könnte man auch die Verwendung des gleichermaßen verwendeten, aber stärker schriftsprachlichen 将 jiāng mit 把 kontrastieren.

2.5 Einschränkungen

Die Anwendung der Korpuslinguistik ist jedoch nicht uneingeschränkt. Zwar bietet sie wertvolle Einblicke für die Fremdsprachenforschung und kann in Kombination mit anderen Forschungsmethoden genutzt werden, um ein umfassenderes Verständnis von Sprache und Kommunikation zu entwickeln, auf der anderen Seite sind jedoch folgende Punkte immer zu bedenken:

  • Korpora sind nur so gut wie die Daten, die in sie eingespeist werden. Wenn die Daten nicht ausreichend repräsentativ sind, können die daraus abgeleiteten Erkenntnisse verzerrt sein. Insbesondere hinsichtlich Mündlichkeit sind chinesische Korpora oft wenig aussagekräftig.
  • Korpuslinguistik ist besonders nützlich für die Untersuchung von häufig auftretenden sprachlichen Phänomenen. Seltene oder stark kontextabhängige Phänomene sind jedoch schwerer zu erfassen.
  • Mangelnde Kontrolle über Kontext und Kommunikationssituation: In Korpora sind Texte oft aus ihrem ursprünglichen Kontext gerissen, was dazu führen kann, dass wichtige Informationen über die Kommunikationssituation verloren gehen, wodurch die Interpretation erschwert wird. Korpora sind in der Regel besser geeignet, um syntaktische und lexikalische Phänomene zu untersuchen. Die Erforschung von pragmatischen, bedeutungsbezogenen bzw. kulturspezifischen Kommunikationssituationen ist mit Korpusuntersuchungen kaum zu leisten.
  • Wie überall kann auch der Faktor „Mensch“ zu unterschiedlichen subjektiven Urteilen und unterschiedlichen Interpretationen der Daten führen.
  • Korpora können zeigen, dass bestimmte sprachliche Phänomene in der Realität auftreten, aber sie bieten oft keine direkten Einblicke in die Gründe dafür. Ursache-Wirkungs-Zusammenhänge müssen oft durch zusätzliche Forschungsmethoden ermittelt werden.
  • Sprache entwickelt sich kontinuierlich, und Korpora können möglicherweise nicht immer aktuelle Trends oder Veränderungen in der Sprache erfassen. So basiert das vergleichsweise gut dokumentierte, nur in Print vorliegende 现代汉语频率词典 (BLCU 1986) aus Texten der frühen 1980er Jahre der VR China, die in journalistische, wissenschaftliche, mündliche (Theaterstücken entnommene) und literarische Texte untergliedert sind. Während diese textsortenspezifische Gliederung vorbildlich ist, kann diese Untersuchung natürlich nur begrenzt Aussagen über das heutige Chinesisch bieten.

2.6 Liste der Chinesischkorpora  

In der folgenden Liste sind bekannte und repräsentative Korpora für Chinesisch aufgeführt, die über das Internet 2025 zugänglich sind.

Die Einteilung in schriftliche und mündliche Korpora erfolgt anhand des Mediums der Primärdaten. Demzufolge können schriftliche Korpustexte auch konzeptionell mündliche Äußerungen und Texte wie informelle Briefe enthalten. Die mündlichen Korpora umfassen Aufzeichnungen mündlicher Kommunikation, welche im Zuge der Korpuserstellung in Form von Transkripten schriftlich fixiert und annotiert wurden. Meist stehen neben diesen Transkriptionen auch Audiodateien der Aufnahmen zur Verfügung (vgl. Storrer 2011, S. 226). Da die meisten mündlichen Korpora aus Datenschutzgründen nicht öffentlich zugänglich sind, wurden, um eine repräsentative Darstellung der vorhandenen Korpora zu gewährleisten, auch diejenigen mündlichen Korpora für das Chinesische aufgenommen, die häufig rezipiert werden, jedoch nur auf Nachfrage zugänglich sind oder eine Lizenz benötigen. Diese können über die entsprechenden Links in der Liste erworben werden.

Übersicht einiger öffentlich zugänglichen Korpora für geschriebenes Chinesisch

NameUmfangLinkAnmerkungen
UCLA Lancaster Written Chinese Corpus
2007 / 2012
Richard Xiao; Hongyin Tao
687634 tokens in UCLA1; 1119930 tokens in UCLA2https://www.lancaster.ac.uk/fass/projects/corpus/LCMC/username and password are both test
ToRCH2019现代汉语平衡语料库 Beijing Foreign Studies
University 2022 Jialei Li、Mingchen Sun; Jiajin Xu
1,008,681词
(bzw. 1,659,951字)
https://corpus.bfsu.edu.cn/info/1082/1782.htmDer Korpus wird alle fünf Jahre aktualisiert. Brown familiy Korpus
CCL Corpus 北京大学CCL语料
Peking University: Center of Chinese Linguistics PKU 2019
Weidong Zhan; Rui Guo; Baobao Chang; Yirong Chen; Long Chen
Die Version 2024 des CCL-Korpus erreicht eine Gesamtgröße von 6 Milliarden Wörtern, wenn man das chinesische Korpus im zweisprachig ausgerichteten chinesisch-englischen Korpus mitzählt (u. a. Modernes Chinesisch 5,85 Milliarden character tokens; Klassisches Chinesisch 4,75 Milliarden character tokens).http://ccl.pku.edu.cn:8080/ccl_corpus/index.jsp


Anweisung zur Nutzung:  http://ccl.pku.edu.cn:8080/ccl_corpus/CCLCorpus_Readme.html
Chinese National Corpus (CNC) 国家语委现代汉语语料库
China State Language Commission
Das Korpus umfasst insgesamt über 100 Millionen Zeichen, von denen etwa 70 Millionen Zeichen aus dem Korpus vor 1997 stammen, die alle manuell in die gedruckte Version des Korpus eingegeben wurden.Online-Zugang nicht auffindbar
Academica Sinica Balanced Corpus of Modern Chinese 4.0 中央研究院漢語平衡語料庫 (Sinica Corpus) 2010
Keh-Jiann Chen; Chu-Ren Huang
Das Korpus besteht aus 19.247 Artikeln; 1.396.133 Sätzen; 11.245.330 Wort-Token; 239.598 word types; 17.554.089 character tokens. Die gesammelten Artikel stammen aus den Jahren 1981 bis 2007.http://asbc.iis.sinica.edu.tw/Repräsentative Stichprobe des Modernen Chinesisch – Handhabung in Chinesisch – Englische Anleitung ist vorhanden  

Wortartenzuweisung mit Codes
留学生全程性中介字字库及中介语文本语料库 Vollständiges Zeichenkorpus der Interlanguage von internationalen Studierenden und Korpus von Interlanguage-Texten 原/ Früher:中山大学汉字偏误标注的汉语连续性中介语语料库  Bis Mai 2022 umfasst das Korpus etwa 5 Millionen Wörter aus mehr als 110 Ländern und 78 Sprachen.https://cilc.sysu.Ohne Registrierung ist lediglich die Durchsicht der ersten 20 Korpora möglich, sofern das Korpus als Gast betreten wird.
Es umfasst auch eine Zeichenfehler-Datenbank 错字数据库.
Das dynamische HSK-Aufsatzkorpus der Beijing-Universität für Sprache und Kultur 北京语言大学HSK动态作文语料库 Beijing-Universität für Sprache und Kultur 2006Bis Juli 2008 umfasste das Korpus 1.1 insgesamt 11.569 Artikel mit insgesamt 4,24 Millionen Wörtern.http://hsk.blcu.edu.cn/LoginDer hier vorgestellte Korpus umfasst Antwortbögen von Teilnehmern, deren Muttersprache nicht Chinesisch ist und die die HSK-Prüfung der Oberstufe abgelegt haben. Die Daten wurden über einen Zeitraum von 13 Jahren (1992–2005) erhoben und enthalten die Antworten ausländischer Testteilnehmer. Registrierung notwendig.
BLCU Chinese Corpus BCC语料库 Universität für Sprache und Kultur Peking 北京语言大学 2014Das BCC Chinese Corpus umfasst insgesamt etwa 9,5 Milliarden Wörter und setzt sich aus multidisziplinären Korpora zusammen, darunter Zeitungensartikel (2 Milliarden Wörter), Literatur (3 Milliarden Wörter), allgemeines Chinesisch (1,9 Milliarden Wörter), altes Chinesisch (2 Milliarden Wörter) sowie Dialoge (0,6 Milliarden Wörter, aus Weibo und Filmuntertiteln).https://bcc.blcu.edu.cnSuch- und Statistikergebnisse können von angemeldeten Benutzern mit einem Datenbestand von 10.000 Einträgen und von nicht angemeldeten Benutzern mit einem Datenbestand von 1.000 Einträgen heruntergeladen werden.
Global Chinese Teaching Material E-library 全球汉语教材库 Sun-Yat-sen-Universität 中山大学2011Derzeit umfasst unsere Sammlung mehr als 17.800 Chinesisch-Lehrbücher weltweit, die in 40 Ländern und 56 Sprachen veröffentlicht wurden.http://www.ctmlib.com/
(2025 nicht mehr zugänglich)
Die Sammlung enthält grundlegende Informationen wie Titel, ISBN-Nummer, Herausgeber, Verlag, Hauptinhalt etc. Von insgesamt 17.800 Chinesisch-Lehrbüchern wurden 10.108 Bände mit detaillierteren Informationen erfasst. Diese wurden in 29 Ländern und in 53 Sprachen veröffentlicht. Informationen umfassen Lernstufe, Schulkategorie, Unterrichtssprache, Kompetenzstufe u.a..
Das Korpus der chinesischen Interlanguage der BLCU 北京语言大学汉语中介语语料库 Universität für Sprache und Kultur Peking 2018Die Gesamtwortzahl des Primärdaten erreicht 22,75 Millionen Wörter, während das annotierte Daten 115 Millionen Wörter umfasst. Dies beinhaltet schriftliche, gesprochene und Video-Daten von chinesischen Lernenden aus 111 Ländern und Regionen. Für die Zwecke dieser Berechnung werden Länder und Regionen mit weniger als 10 Sprachäußerungen nicht berücksichtigt.http://qqk.blcu.edu.cn/Neben einer signifikanten Anzahl europäischer und amerikanischer Lernerkorpora ist zudem eine wachsende Anzahl afrikanischer Lernerkorpora zu verzeichnen. Dabei wird zwischen Lernerkorpora mit oder ohne Herkunftssprachenhintergrund differenziert. Registrierung notwendig.
THCHS-30. A Free Chinese Speech Corpus Released by CSLT@Tsinghua University 清华TH语料库/ THCHS-30语料库 Dong Wang, Xuewei Zhang, Zhiyong Zhang CSLT, Tsinghua Universität 2002speech data and transcripts-6.4G standard 0db noisy test data-1.9G supplementary resources, incl. lexicon for training data, noise samples-24Mhttp://www.openslr.org/18Downloads from website directly
New Era People’s Daily Segmented Corpus(NEPD) 新时代人民日报标注语料库 Huang Shuiqing, Wang Dongbo Nanjing Agricultral University 2021Der Umfang der NEPD beläuft sich gegenwärtig auf über 23 Millionen Wörter, die allesamt einer manuellen Annotation unterzogen wurden.http://corpus.njau.edu.cn/Vor der Nutzung des NEPD-Korpus ist eine Antragstellung erforderlich.
The CASIA Chinese Corpus for Emotions 汉语情感语料库 中国科学院自动化所(Institute of Automation, Chinese Academy of Sciences) 2005Das für die Untersuchung emotionalen Sprechens entwickelte Korpus umfasst vier professionelle Sprecher, sechs Stimmungslagen und insgesamt 9.600 verschiedene Aussprachen, darunter 300 identische und 100 unterschiedliche Texte.http://www.chineseldc.org/resource_info.php?rid=76Insgesamt fünf Emotionsbereiche – glücklich (高兴), traurig (悲哀), wütend (生气), überrascht (惊吓) und neutral (中性). Für jede Emotion gibt es 500 Sätze des Korpus. Nutzung kostenpflichtig.
CIPS-SIGHAN CLP 2010简体中文分词评测语料 Institute of Computing Technology, Chinese Academy of Sciences中国科学院计算技术研究所2010Das Korpus umfasst die Testmenge der CIPS-SIGHAN-2010-Segmentierung für vereinfachtes Chinesisch (jeweils 50.000 Wörter für die vier Fachgebiete Literatur, Informatik, Medizin und Finanzen). Daten umfassen Texte aus den Bereichen Literatur, Informatik, Medizin und Finanzen, eine Referenzmenge, eine unmarkierte Trainingsmenge (jeweils 100.000 Wörter für Literatur und Informatik), einen Leitfaden für sowie einen Gesamtbericht.Keinen Online-Zugang gefundenDas Korpus findet Anwendung in der Verarbeitung natürlicher Sprache. Die Nutzung ist mit Kosten verbunden.
Media Language Corpus (MLC)中国传媒大学有声媒体文本语料库 Communication University of China 2005  Dieses Korpus umfasst die transkribierten Texte von 34.039 Radio- und Fernsehprogrammen aus den Jahren 2008 bis 2013 mit einer Gesamtzahl von 241.316.530 Zeichen und 200.071.896 Wörtern. Alle Texte wurden segmentiert und insgesamt 135.767.884 Wörter getaggt.https://ling.cuc.edu.cn/RawPub/Das Korpus stellt ein offenes, kostenlos nutzbares Korpus dar, welches im Jahr 2016 zum dritten Mal überarbeitet wurde. Dabei wurden alle Korpora mit Metadaten annotiert.

3. Fazit

Im Internet sind mehrere Chinesischkorpora öffentlich zugänglich, die je nach Forschungszweck und Erkenntnisinteresse variieren, die mit unterschiedlichen Funktionen und Annotationskategorien ausgestattet sind und über verschiedene sampling frames verfügen. In der Forschungsliteratur häufig erwähnte Korpora wurden in oben stehender Übersicht zusammengestellt, um die Suche nach einem geeigneten Korpus für eigene Forschungszwecke zu erleichtern. 

Die Verwendung von Chinesischkorpora unterstützt und vereinfacht die sprachwissenschaftliche Forschung zur realen Verwendung des Chinesischen, und zahlreiche Fragen bezüglich der chinesischen Sprache können mithilfe von korpuslinguistischen Verfahren beantwortet werden. Auch für die Fremdsprachendidaktik können korpusbasierte Forschungsergebnisse wegweisend für curriculare Inhalte oder bei der Entwicklung von Übungsformen sein.

Göttingen 2018 / Berlin 2025,
Alice Cheng / Andreas Guder / Jinlei Zhong

Literatur

Beijing Yuyan Xueyuan Yuyan Jiaoxue Yanjiusuo (北京语言学院教学研究所) (1986): Xiandai Hanyu pinlü cidian (现代汉语频率词典). Beijing: Beijing Yuyan Xueyuan Chubanshe.

Lemnitzer, L./Zinsmeister, H. (2015): Korpuslinguistik. Eine Einführung. 3. Auflage. Tübingen: Narr A. Francke.

McEnery, T./Hardie, A. (2012): Corpus Linguistics. Method, Theory and Practice. New York, Cambridge University Press.

Scherer, Carmen (2014): Korpuslinguistik. Zweite, aktualisierte Auflage. Heidelberg: Universitätsverlag Winter.

Storrer (2011): Korpusgestützte Sprachanalyse in Lexikographie und Phraseologie. In: Knapp, K./Antos, G./Becker-Mrotzek, M./Deppermann, A./Göpferich, S./Grabowski, J./Klemm, M./ Villiger, C. (Hg.): Angewandte Linguistik. Ein Lehrbuch. 3. Auflage. Tübingen: Narr A. Francke Verlag, S. 216-239.

Xu, J./Wu, L. (2014): Web-based fourth generation corpus analysis tools and the BFSU CQPweb case, Waiyu Dianhua Jiaoxue [Computer-assisted Foreing Language Education]. Online verfügbar unter: http://111.200.194.212/cqp/ucla2/, zuletzt geprüft am 30.08.2018.