Los algoritmos que permiten recuperar idiomas perdidos
Los registros que han llegado a nuestros días de los idiomas que se han perdido a lo largo de la historia son tan mínimos que la mayoría de las tecnologías actuales no son capaces de descifrarlos. Algunos de los que se están intentando recuperar coexistieron con el griego y el hebreo o son incluso más antiguos. Los traductores automáticos tradicionales, como el de Google, solo son eficientes para traducir palabras entre dos idiomas que siguen utilizándose: su forma de funcionar no sirve si queremos inferir información de lenguas que ya han desaparecido. Consciente de esta situación, un equipo de investigadores del MIT lleva años trabajando en un sistema de inteligencia artificial capaz de descifrar lenguajes que ya no se usan, sin necesidad de conocimientos sobre su relación con otros idiomas recientes.
Este estudio, cuentan los investigadores, “no es una mera curiosidad académica: cuando se pierde un idioma, se pierde también todo el conjunto de conocimientos sobre las personas que lo hablaron”. La mayoría de los que han existido ya no se hablan y otros, considerados “muertos”, están perdidos o no descifrados, es decir, no se sabe lo suficiente sobre su gramática, vocabulario o sintaxis para poder comprender los textos. “Desafortunadamente, la mayoría de ellos tienen registros tan mínimos que no tienen un lenguaje parecido o de la misma época con el que compararlos”, cuenta la profesora Regina Barzilay, una de las investigadoras del MIT. “A menudo, carecen de separadores tradicionales como los espacios en blanco y la puntuación”.
Estos son los problemas que se propuso resolver el equipo que lidera Barzilay del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL). Los algoritmos que han diseñado han sido capaces de descifrar automáticamente un lenguaje perdido utilizando solo unos pocos miles de palabras (muchos menos datos de los que se usan habitualmente para entrenar a los algoritmos). También demostraron que su sistema puede determinar por sí mismo las relaciones entre idiomas.
El equipo aplicó su algoritmo al castellano comparándolo con el vasco y con otros candidatos de las familias romance, germánica, turca y urálica. Como resultado, encontraron que, aunque el vasco y el latín estaban más cerca del castellano que otros idiomas, todavía eran demasiado diferentes para considerarlos relacionados. Esta conclusión corrobora estudios recientes que sugieren que el castellano no está relacionado con el vasco: el sistema de IA llegó a la misma conclusión que los humanos.
¿Cómo funciona exactamente?
Los programadores utilizaron nociones básicas de lingüística clásica, como el hecho de que los idiomas evolucionan de formas predecibles, para entrenar a los algoritmos. Por ejemplo, cuando varía la pronunciación, es más probable que se produzcan ciertas sustituciones de sonido que otras. "Una palabra con una p en el idioma principal puede evolucionar a una b en el idioma descendente, pero el cambio a una k es menos probable por lo diferente que suenan ambas letras", explica la profesora Barzilay. Con esta y otras instrucciones básicas como punto de partida, desarrollaron un sistema capaz de analizar las transformaciones a partir de pocos datos de entrenamiento, lo cual era clave porque existen muy pocos datos de los idiomas que se quieren recuperar.
Este proyecto es la continuación de un estudio publicado el año pasado en el que los mismos investigadores consiguieron descifrar los idiomas muertos del ugarítico y el lineal B. Este último empezó a utilizarse en torno al 1400 antes de Cristo y los humanos tardamos décadas en descifrarlo. Sin embargo, una diferencia clave con ese proyecto fue que el equipo sabía que estos idiomas estaban relacionados con las primeras formas del hebreo y el griego, respectivamente. Con el nuevo sistema, el algoritmo infiere también la relación entre los idiomas.