The GlobalPhone Project

Sprache	Name der Zeitung URL (Stand: Oktober 1999)
Arabisch	Assabah http://www.tunesie.com/Assabah
Chinesisch	Peoples Daily http://www.snweb.com
Deutsch	FAZ, Süddeutsche http://www.faz.de http://www.sueddeutsche.de
Koreanisch	Hankyoreh Daily News http://news.hani.co.kr
Kroatisch	HRT, Nacional, Obzor http://www.hrt.hr/vijesti http://www.nacional.hr http://www.tel.hr/hrvatski-obzor
Japanisch	Nikkei Shinbun http://www.nikkeihome.co.jp
Portugiesisch	Folha de Sao Paulo http://www.uol.com.br/fsp
Russisch	Ogonyok Gaseta und express- chronika http://www.ropnet.ru/ogonyok
Schwedisch	Göteborgs-Posten http://www.gp.se
Spanisch	La Nacion http://www.nacion.co.cr
Tamil	Thinaboomi Tamil Daily http://www.thinaboomi.com
Türkisch	Zaman http://www.zaman.com.tr

Darüber hinaus war es das Ziel, in allen Sprachen Daten über dieselbe Domäne zu sammeln. Als Textquelle wurden im Internet verfügbare überregionale Tageszeitungen der jeweiligen Länder ausgewählt. Die Themengebiete umfassen die Bereiche internationales und nationales Tagesgeschehen sowie Wirtschaftsberichte. Dies gewährleistet den Gebrauch sprachenübergreifender Namen und Bezeichngungen sowie einigermaßen Vergleichbarkeit. Die Domäne ist sehr weit gefaßt und wird so den Erfordernissen eines Erkenners für große Wortschätze gerecht. Auch kann dadurch das Ziel erreicht werden, möglichst vielfältiges Sprachmaterial zu erhalten, um die Polyphonabdeckung zu maximieren. Die elektronische Verfügbarkeit der Zeitungen garantiert, daß eine nahezu zuverlässigen Schätzung der Sprachmodelle notwendig sind. Die obige Tabelle zeigt die zur Sammlung der Sprachdaten verwendeten Tageszeitungen nebst ihren Internet-Quelle.