twitter account

Traductora de 200 lenguas de Meta (Facebook): expertos señalan sus límites

11/07/2022
David Vázquez

Meta, el conglomerado empresarial del que forman parte gigantes como Facebook, lleva un par de días sacando pecho. No es para menos.

Con las autoridades irlandesas apretando de nuevo las tuercas a las grandes tecnológicas para que garanticen que el Gobierno estadounidense no va a tener acceso a los datos de sus usuarios europeos, la presentación en sociedad del proyecto No Lenguage Left Behind (Ninguna lengua se queda atrás, NLLB, por sus siglas en inglés) es claramente el tipo de noticia que Meta desea subrayar para mejorar su deteriorada reputación.

Pero NLLB es, por otra parte, mucho más que una campaña de marketing. Se trata de un modelo de IA que, a falta de ofrecer más muestras para valorar la calidad de sus producciones, es por el momento traductor más completo que ha conocido el ser humano.

Con doscientos idiomas a su disposición, supera los algo más de 130 que contempla Google Translate. Naturalmente, la IA anda lejos de los 6.500 que se calcula que hay en total en el mundo, pero no por ello sus doscientas lenguas dejan de ser un interesante salto hacia delante.

La idea de Meta, como indica el propio nombre de su proyecto, es que ningún idioma se quede atrás. Esto, claro, con el metaverso en mente.

La empresa de Zuckerberg fantasea con el día en que, en mitad de su realidad virtual, cualquier persona de cualquier rincón del mundo pueda entenderse con otra hablando cada uno de ellos su lengua materna independientemente de lo mayoritaria o minoritaria que esta sea.

Pero ese día, advierten algunos expertos, está todavía lejos, muy lejos. Tal vez nunca llegue, de hecho.

"Llegar a tener un traductor universal fiable es imposible. En Cataluña, por ejemplo, hay proyectos que tratan de recoger todas las variedades dialectales [maneras de pronunciar un idioma] que hay, y ya es imposible porque una misma palabra de un pueblo a otro cambia a nivel mundial, perseguir algo así es interesante, pero imposible", explica por teléfono a Business Insider España Cecilio Angulo, profesor de IA y robótica en la Universidad Politècnica de Catalunya y presidente de la Asociación Catalana por la IA.

NLLB, un modelo revolucionario pero con margen de mejora

No cabe duda, sin embargo, de que el proyecto de Meta, detallado prolijamente en un artículo científico que ha visto también la luz esta semana, es ambicioso. Y ahí radica su principal fortaleza.

Tal y como ha contado el propio Mark Zuckerberg en un post de su cuenta de Facebook, para llegar a los 200 idiomas la IA ha contemplado 50.000 millones de parámetros que han sido analizados por SuperCluster, uno de los superordenadores más potentes del mundo. 

El objetivo, dice el CEO de la empresa, es alcanzar los 25.000 millones de traducciones diarias.

Pero no solo de fríos datos se ha alimentado esta IA. Para evaluar la calidad de las traducciones, se han tomado 3.001 pares de frases de cada idioma (del inglés a la lengua destino) que han sido evaluadas por traductores expertos hablantes nativos de la lengua que examinaban.

Lo han hecho tomando como referencia el sistema BLEU (Bilingual Evaluation Understudy), un método internacional que permite otorgar un valor numérico a una traducción en base a su calidad.

Los resultados de estos exámenes casi no han podido ser mejores: los evaluadores han encontrado que las traducciones de la IA de Meta son un 44% mejores que las de los mejores traductores que ya existen.

Se trata, sin embargo, de datos que conviene poner en cuarentena. Para empezar, hay que considerar que los examinadores eran humanos, lo que quiere decir que sus valoraciones pueden contener sesgos.

El más evidente, apuntan algunos expertos, es que los hablantes de lenguas minoritarias suelen ser menos exigentes. Entusiasmados ante la sola idea de ver su idioma traducido desde el inglés, tienden a pasar por alto errores gramaticales que juzgan menores.

En los idiomas, sin embargo, cada palabra, cada expresión y cada giro lingüístico cuentan.

Lo saben bien precisamente en Facebook, que en 2017 tuvo que ver cómo un usuario palestino de su red social era detenido por la policía israelí debido a un error de sus robots: el hombre escribió "Buenos días" en su tablón y el software de traducción de la plataforma interpretó "Atácalos".

En segundo lugar, hay que aclarar que 3.001 frases no definen un idioma. Un traductor puede trabajarlas con éxito sin que ello signifique necesariamente que sea infalible, y viceversa.

Otro aspecto a tener en cuenta es las raíz de los idiomas contemplados. 200 lenguas, explica Angulo, pueden parecer muchas, pero no tienen por qué ser necesariamente un reto para una IA.

"La gracia está en la rareza de los idiomas. Por ejemplo, si la mayoría comparte raíz latina, a la que tienes 2, ya tienes 7. Si tus idiomas son el español, el italiano, el portugués, el catalán, el gallego y el rumano, las palabras cambian, pero tus estructuras van a ser siempre muy parecidas", comenta el experto en IA.

Por otra parte, la verdadera dificultad de las traducciones no radica tanto en la gramática como en los refranes y las expresiones populares, que dependen del contexto.

"La riqueza del idioma está más en la lógica del contexto. La frase 'Tiene muchas pelotas' depende totalmente del contexto. Un buen traductor es aquel que sabe que la expresión inglesa 'Ponte en mis zapatos' en español significa 'Ponte en mi piel".

Los problemas éticos de la IA, las grandes empresas y las lenguas minoritarias

A estos problemas hay que añadir una inherente desconfianza existente entre comunidades de hablantes de lenguas minoritarias y grandes corporaciones.

No pocos de estos hablantes interpretan que el hecho de tener acceso más fácilmente a idiomas como el inglés puede generar que en su comunidad existan pocos incentivos para seguir produciendo documentos en su lengua nativa.

Con todo, por ahora la investigación arroja sensaciones positivas entre los académicos.

"En general, me alegro de que Meta se haya embarcado en esto. Ojalá haya más trabajos así por parte de empresas como Google, Meta y Microsoft. Todas tienen por delante un trabajo sustancial en cuanto a traducción automática de lenguas con pocos hablantes", dice Alexander Fraser, profesor de Lingüística computacional en la Universidad de Múnich, en The Vergue.

"En el proyecto hemos trabajado con lingüistas, sociólogos y especialistas en ética. Este tipo de enfoque interdisciplinario permite que nos centremos de verdad en los problemas humanos", apunta en este mismo medio Angela Fan, investigadora de Meta involucrada en el desarrollo de la IA.

Esta subraya por otra parte la importancia de que Meta haya dado acceso libre a algunos elementos del proyecto para que quien quiera pueda usarlo en sus investigaciones.

Para Angulo, por otra parte, el futuro de los traductores estará más en la palabra hablada que en la traducción escrita.

"En lenguas mayoritarias, las traducciones de texto han avanzado mucho y van más o menos bien. El gran desarrollo vendrá con la voz y con la capacidad que tengan las máquinas de detectar ciertas inflexiones, entonaciones y maneras de pronunciar".