Domänen- und Textauswahl


Die Faktoren Kosten und Zeit spielten eine wesentliche Rolle beim Entwurf des Korpus. Der aufwendiste und teuerste Teil einer Sammlung von Sprachdaten ist die nachträgliche Verschriftung des gesprochenen Textes. Um möglichst kostengünstig zu bleiben, wurden gelesene Sprachdaten gesammelt, also solche, bei denen die zu sprechenden Texte bereits in elektronischer Form vorliegen.

 

Sprache

Name der Zeitung
URL (Stand: Oktober 1999)

Arabisch

Assabah
http://www.tunesie.com/Assabah

Chinesisch

Peoples Daily
http://www.snweb.com

Deutsch

FAZ, Süddeutsche
http://www.faz.de
http://www.sueddeutsche.de

Koreanisch

Hankyoreh Daily News
http://news.hani.co.kr

Kroatisch

HRT, Nacional, Obzor
http://www.hrt.hr/vijesti
http://www.nacional.hr
http://www.tel.hr/hrvatski-obzor

Japanisch

Nikkei Shinbun
http://www.nikkeihome.co.jp

Portugiesisch

Folha de Sao Paulo
http://www.uol.com.br/fsp

Russisch

Ogonyok Gaseta und express- chronika
http://www.ropnet.ru/ogonyok

Schwedisch

Göteborgs-Posten
http://www.gp.se

Spanisch

La Nacion
http://www.nacion.co.cr

Tamil

Thinaboomi Tamil Daily
http://www.thinaboomi.com

Türkisch

Zaman
http://www.zaman.com.tr

Tabelle: Name und Internet-Quellen der zur Datensammlung verwendeten überregionale landesspezifische Tageszeitungen

 

Darüber hinaus war es das Ziel, in allen Sprachen Daten über dieselbe Domäne zu sammeln. Als Textquelle wurden im Internet verfügbare überregionale Tageszeitungen der jeweiligen Länder ausgewählt. Die Themengebiete umfassen die Bereiche internationales und nationales Tagesgeschehen sowie Wirtschaftsberichte. Dies gewährleistet den Gebrauch sprachenübergreifender Namen und Bezeichngungen sowie einigermaßen Vergleichbarkeit. Die Domäne ist sehr weit gefaßt und wird so den Erfordernissen eines Erkenners für große Wortschätze gerecht. Auch kann dadurch das Ziel erreicht werden, möglichst vielfältiges Sprachmaterial zu erhalten, um die Polyphonabdeckung zu maximieren. Die elektronische Verfügbarkeit der Zeitungen garantiert, daß eine nahezu zuverlässigen Schätzung der Sprachmodelle notwendig sind. Die obige Tabelle zeigt die zur Sammlung der Sprachdaten verwendeten Tageszeitungen nebst ihren Internet-Quelle.