procesamiento de idiomas del
sur global

Procesamiento de idiomas del Sur Global

¿De qué se trata?

PISur es un proyecto diseñado para respaldar a los idiomas del Sur Global a través del desarrollo de herramientas computacionales. La mayoría de tales idiomas quedan desventajados debido a años del colonialismo y del imperialismo lingüístico. La llamada Brecha Digital Lingüística los deja aun más marginalizados en comparación con idiomas como el inglés, el castellano, y el chino, con pocos materiales accesibles en internet y pocos recursos disponibles para la creación de nuevos materiales. La Brecha Lingüística Digital no es simplemente un problema tecnológico, pero la tecnología puede contribuir a la solución.

Software y investigaciones

Todo el software es gratis y disponible bajo una GNU General Public License, por la que podés usarlo por cada propósito, cambiarlo para ajustarlo a tus necesidades, y compartirlo con otros.

Nuestro trabajo se ha centrado en dos tipos de herramientas: las para el procesamiento de la morfología (estructura de palabras) de idiomas específicos y las para ayudar a la traducción de documentos para pares de idiomas específicos.

Procesamiento morfológico (morfo)

Para los idiomas con palabras de estructura compleja, el procesamiento morfólogico es un componente esencial en muchas aplicaciones. El "procesamiento morfólogico" se refiere a dos distintos procesos, el análisis de palabras, el que extrae la raíz de la palabra y sus propiedades gramaticales, y la generación, la que realiza el proceso contrario. Por ejemplo, dado la palabra castellana cambies, un analizador morfológico reconocería que es un verbo con el infinitivo cambiar, en el subjuntivo presente, y con un sujeto de segunda persona y de número singular. Y dada el infinitivo cambiar y las propiedades suj=2p y tmp=subj_pres, un generador morfológico produciría la palabra cambies.

Hemos desarrollado software de procesamiento morfológico parcial o relativamente completo para seis lenguas con pocos recursos: las lenguas etíopes y eritreas amárico, oromo, y tigriña, las lenguas indígenas americanas guarani, quechua, y quiché. El código y los datos morfológicos para estas lenguas, y también para el castellano, están disponibles en forma del programa morfo, el que se puede bajar desde https://github.com/hltdi/morfo/.

Normalmente el procesamiento morfológico forma un componente de un sistema de procesamiento del lenguaje más amplio, por ejemplo, uno que realiza la traducción automática. Por lo tanto, nuestro software usaría normalmente un ingeniero lingüístico que está desarrollando tal sistema. Sin embargo, hemos desarrollado además una aplicación web para el análisis morfológico de las siete lenguas que es usable por cualquier persona. Se puede encontrar aquí: http://plogs.soic.indiana.edu/morfo/ .

Traducción asistida por computadora

Un método importante de aumentar los materiales disponibles en idiomas con pocos recursos es la traducción de otros idiomas. Aunque la traducción automática todavía no produce resultados adecuados para la publicación, sistemas de la traduccción asistida por computadora (TAC) pueden acelerar el trabajo de trductores humanos. La mayoría del software para TAC depende de memorias de traducción, es decir, de bases de datos grandes de ejemplos de la traducción. Para los idiomas con pocos recursos, tales bases de datos todavía no existen, así que el marco que estamos desarrollando depende del conocimiento gramatical para sugerirle traducciones al traductor y guarda sus traducciones en una memoria traducción creciente. A largo plazo la memoria de traducción debería mejorar el desempeño del sistema TAC. Aquí está una descripción técnica en inglés de la teoria detrás de este enfoque, Traducción por Dependencias Minimales (TDM).

Actualmente estamos desarrollando una aplicación web, llamada Mainumby ("colibrí" en guaraní), que implementa tal sistema para el par de idiomas español y guaraní, los dos idiomas oficiales del Paraguay. Este sistema será la primera implementación práctica de TDM. El código y los datos para Mainumby están disponibles aquí: https://github.com/hltdi/mainumby/.