Domänen- und Textauswahl |
|
Sprache |
Name der Zeitung |
Arabisch |
Assabah |
Chinesisch |
Peoples Daily |
Deutsch |
FAZ,
Süddeutsche |
Koreanisch |
Hankyoreh
Daily News |
Kroatisch |
HRT, Nacional,
Obzor |
Japanisch |
Nikkei Shinbun |
Portugiesisch |
Folha de
Sao Paulo |
Russisch |
Ogonyok Gaseta
und express- chronika |
Schwedisch |
Göteborgs-Posten |
Spanisch |
La Nacion |
Tamil |
Thinaboomi
Tamil Daily |
Türkisch |
Zaman |
Tabelle: Name und Internet-Quellen der zur Datensammlung verwendeten überregionale landesspezifische Tageszeitungen |
Darüber hinaus war es das Ziel, in allen Sprachen Daten über dieselbe Domäne zu sammeln. Als Textquelle wurden im Internet verfügbare überregionale Tageszeitungen der jeweiligen Länder ausgewählt. Die Themengebiete umfassen die Bereiche internationales und nationales Tagesgeschehen sowie Wirtschaftsberichte. Dies gewährleistet den Gebrauch sprachenübergreifender Namen und Bezeichngungen sowie einigermaßen Vergleichbarkeit. Die Domäne ist sehr weit gefaßt und wird so den Erfordernissen eines Erkenners für große Wortschätze gerecht. Auch kann dadurch das Ziel erreicht werden, möglichst vielfältiges Sprachmaterial zu erhalten, um die Polyphonabdeckung zu maximieren. Die elektronische Verfügbarkeit der Zeitungen garantiert, daß eine nahezu zuverlässigen Schätzung der Sprachmodelle notwendig sind. Die obige Tabelle zeigt die zur Sammlung der Sprachdaten verwendeten Tageszeitungen nebst ihren Internet-Quelle. |