twitter account

Usando una IA para traducir una lengua de hace 5.000 años, descubrieron que entiende mejor los decretos que los poemas

22/06/2024
Marcos Merino

El sistema de escritura más antiguo que se conoce es el cuneiforme, inventado en Mesopotamia por los sumerios en el cuarto milenio antes de Cristo (un milenio antes que los jeroglíficos egipcios) para escribir en tablillas de arcilla (no, no se utilizaba papel ni papiro… el cuneiforme está optimizado para escribirse con punzón o cincel).

En todo el tiempo que se mantuvo en uso (hasta el siglo I de nuestra era, nada menos) evolucionó de un sistema ideográfico a uno fonético (silábico) y fue experimentando variaciones para adaptarse a las diferentes lenguas que lo adoptaron como propio, la mayoría de ellas sin ninguna relación entre sí.

Eso ha provocado que los avances logrados a la hora de traducir unas determinadas tablillas no siempre se hayan podido aplicar a las encontradas en otros yacimientos. Suma a eso la baja disponibilidad de expertos en lenguas tan antiguas y minoritarias y tendrás entre manos cientos miles de tablillas a la espera de ser lentamente traducidas.

Al menos, hasta que la inteligencia artificial es usada para echar una mano. Y es que hace un año, en un paper científico publicado por la Oxford University Press, un equipo de investigadores logró aplicar un modelo de deep learning para traducir textos en acadio con un alto nivel de precisión.

Háblame con frases cortas

El acadio es una antigua lengua semítica (como el árabe o el hebreo), que hace siglos se convirtió en la más usada en los actuales Iraq y Siria, sustituyendo al antiguo sumerio. Su versión escrita en cuneiforme incluye caracteres que pueden tener varias funciones simultáneas (equivaler a sonidos, ideas…) lo que dificulta la traducción.

Han descubierto que su modelo de IA (ya disponible en un repositorio online de GitHub) muestra una sorprendente precisión traduciendo textos acadios formales, ya sean de tipo burocrático (decretos reales) o de tipo religioso (presagios), pues todos ellos se ajustan a ciertos patrones fijos…

…sin embargo, los textos de tipo más literario causan que la IA alucine mucho más a menudo (es decir, que se 'saque de la manga' resultados sin relación con los datos introducidos, como un ChatGPT cualquiera). Además,

"El modelo logra mejores resultados en oraciones cortas y de longitud media de aproximadamente 118 caracteres o menos". Recordad que los caracteres no equivalen a nuestras letras: esas oraciones contenían mucha más información que un tuit, creedme.

Además, el modelo implementa dos modelos de traducción, el llamado 'C2E' (traducción directa desde el cuneiforme al inglés) y el 'T2E' (que primero translitera al alfabeto latino desde el cuneiforme y después traduce). Los resultados han resultado ser tangencialmente mejores para esta segunda modalidad.

Sin embargo, el objetivo no es tanto dejar en manos de máquinas la traducción de estas tablillas como crear una metodología basada en "la colaboración humano-máquina" que ayude a agilizar la labor de los académicos y de los estudiantes de acadio.

Por otro lado, según anuncian los investigadores, se están dando los pasos para implementar las funcionalidades del nuevo modelo en una aplicación online ya existente llamada Babylonian Engine, especialmente diseñada para analizar textos cuneiformes con métodos computacionales