Language Technologies Institute, Carnegie Mellon University, Pittsburgh, USA
|
Presentación
Se inicio en el año 2003 una serie de grabaciones de diálogos en el Departamento de Cusco, con el apoyo de la Dirección Nacional de Educación Bilingüe Intercultural, Dinebi, del Ministerio de Educación del Perú, en el marco de un acuerdo de colaboración firmado en el año 2000. Estas grabaciones se destinarán a la creación de un corpus lingüístico oral y escrito, en base a la transcripción de estas conversaciones, y a la posterior traducción paralela, frase a frase, al castellano. Resta por aumentar la base de datos lingüísticos con el propósito de contar con un vocabulario biligüe suficiente, debidamente procesado para el uso en sistemas electronicos de traducción automática; así como de la traducción y alineación de un corpus de elicitación, para determinar la estructura funcional y las caracteristicas de uso de la lengua.
En estos momentos estamos en proceso de elaboración del vocabulario y de la completación del corpus de elicitación.
Se espera que en el desarrollo de este proyecto, progresivamente se pueda contar con los siguientes productos de uso gratuito para las comunidades hablantes del quechua:
- Vocabulario digital bilingüe castellano-quechua en su variante cusqueña.
- Corrector ortográfico del quechua en su variante cusqueña para procesadores de textos.
- Vocabulario digital polígloto (castellano, quechua en su variante cusqueña, aymara y mapudungun).
- Sistema prototipo de traducción automática castellano-quechua en su variante cusqueña.
|