twitter account

Universidad de México desarrolla traductor automático de lenguas indígenas

27/12/2021

En México hay 68 lenguas con 364 variedades

Un programa que permite traducir de forma automática wixárika (Nayarit), ayuuk (Oaxaca), náhuatl (clásico y moderno), mexicanero (Durango) y yorinoqui (Estado de México), como si se tratara de inglés o francés al español, es desarrollado por especialistas del Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas (IIMAS) de la Universidad Nacional Autónoma de México (UNAM).

Iván Vladimir Meza Ruiz, del Departamento de Ciencias de la Computación del IIMAS y titular del proyecto, dijo que estamos acostumbrados al uso de traductores que ofrecen las grandes compañías internacionales de español-inglés u otros idiomas.

De acuerdo con el catálogo del Instituto Nacional de Lenguas Indígenas, en México hay 68 agrupaciones lingüísticas las cuales tienen 364 variantes y hasta hace poco solo la empresa Microsoft desarrolló, en colaboración con universidades de Querétaro y Yucatán, software de interpretación del otomí y maya, como parte de su programa Heritage.

“¿Cómo se ayuda cuando hay una lengua de la que quedan muy pocos hablantes como el ayapaneco? De ella hay pocos registros, así que la tecnología probablemente llegue tarde para algunas y no podemos hacer las 68 oficiales, pero hay otras que sí tienen hablantes y que están floreciendo”, precisó Meza Ruiz.

El especialista en Inteligencia Artificial expuso que a partir de 2014 comenzó con el trabajo gracias a un estudiante que tiene relación con la comunidad wixárika, conocidos por la mayoría como huicholes, y tenía la intención de apoyarla.

Poco a poco se sumaron voluntarios a esta labor, principalmente aquellos que tienen relación con comunidades originarias, estudian una carrera técnica y trabajan con náhuatl, mexicanero y yoem noki. Por ejemplo, el investigador del IIMAS asesora a su estudiante de licenciatura César Cruz, en el IIMAS, para documentar el sistema inteligente para el mazahua, o como ellos se denominan J ñatio, que el alumno desarrolló en forma de una aplicación para celular que se llama MazahuApp, la cual está a disposición a través de GoogleApps.

Otro caso es el de su estudiante de maestría Delfino Zacarías Márquez Cruz, hablante de Ayuuk (mixe), quien trabaja en un método de interpretación, labor en la cual participaron varios miembros de su sitio de origen en la recolección de datos.

“La idea surgió porque desde hacía tiempo quería diseñar un traductor, pero no sabía aterrizar mi idea, así que me acerqué al doctor Iván quien me propuso hacer la red neuronal, pero requería trabajo de campo porque cuando empecé no había recursos para entrenar el modelo y se necesitaba algo que se llama corpus -que son los textos entre el español y la lengua que se quiere trabajar-. El reto fue trabajarlos, encontrar quien traduzca y que las personas estén dispuestas a compartir”, relató Zacarías Márquez.

Meza Ruiz explicó que para este trabajo se utilizan redes neuronales, un modelo computacional que imita un proceso, que en este caso es la traducción de una lengua a otra, por lo que requieren ejemplos, como datos de frases traducidas entre ambas. Para ello se utilizan conceptos matemáticos comunes, y hasta cierto punto básicos, como las operaciones matrices y cálculo vectorial.

La complejidad surge al calibrar los modelos, es decir, encontrar valores específicos para cada una de las acciones que debe realizar el sistema, de tal manera que una frase en una lengua sea transformada a otra, sin ser confundida.

Afortunadamente tenemos varios algoritmos que funcionan bien, pero dado que los modelos actuales llamados profundos tienen numerosos módulos y valores para procesar, se necesita un equipo de cómputo especializado.

Meza Ruiz detalló que los elaborados hasta ahora, incluidos los de Microsoft, son deficientes debido a que este tipo de tecnologías son más exitosas cuando tienen un cuerpo de datos, es decir, millones de ejemplos de frases equivalentes en ambos idiomas para que el programa aprenda a reconocerlas.

Para lenguas originarias los corpus más grandes están cerca de los 10 mil ejemplos, en comparación con los millones de los sistemas comerciales. Estamos muy lejos de tener una experiencia similar a la que tenemos al usar un traductor normal, porque tenemos muy poquitos datos. Esa es parte de nuestra batalla ahorita: conseguir más datos e incrementar nuestros ejemplos”, subrayó Zacarías Márquez.

A lo anterior se agrega que las voces originarias de México son predominantemente orales, precisó, por lo que la normalización de su escritura es contemporánea y en diversos casos no está decidido aún cómo se escriben palabras, conceptos e inclusive frases completas.

Por ejemplo, dijo, “el caso del wixárika se compone de numerosos vocablos con partículas morfológicas, entonces lo que para nosotros puede ser una frase para ellos es una sola palabra,” una situación difícil de procesar para las redes neuronales.

Meza Ruiz añadió que también se deben considerar algunas pérdidas en la traducción, pues para el huichol una oración se estructura con base en a cuánta gente escucha lo que se dice y si hay alguien de mayor jerarquía que nosotros, algo que en español no se suele hacer y esto influye para que algunos textos queden incompletos.

Por ejemplo, la frase m’k’pa:pa ya p’-ta-ti-u-ti-wawi-ri-wa entre otras cosas indica que el evento descrito es visto por el hablante, situación que no se marca en español y la traducción más cercana sería: ella siempre nos pide tortillas.