twitter account

Así funcionan los sistemas de traducción automática neuronal basados en Inteligencia Artificial (IA)

20/07/2022

Las redes neuronales que usan técnicas de aprendizaje profundo (deep learning) permiten obtener traducciones de alta calidad de forma inmediata / Gerda Altmann-Pixabay

Hace apenas unas semanas, Meta (Facebook) presentó un modelo de inteligencia artificial capaz de traducir a 200 idiomas. La apuesta por esta tecnología, que tiene el nombr de ‘No Language Left Behind’ (NLLB-200), forma parte de un proyecto desarrollado por la compañía de Mark Zuckerberg para impulsar su apuesta por el metaverso.

Casi todos los gigantes tecnológicos, a excepción de Apple y Google, están emprendiendo proyectos para posicionarse en este nuevo universo virtual que está en pleno desarrollo. Pero hay otras empresas más modestas, algunas de ellas de ámbito local, que hace tiempo que iniciaron esfuerzos de investigación en este campo. Desde hace unos años la empresa Incyta y el grupo de Investigación GRIAL de los Estudios de Artes y Humanidades de la Universitat Oberta de Catalunya (UOC) colaboran en una serie de proyectos de investigación y transferencia de tecnología relacionados con la traducción automática neuronal. El objetivo de la investigación es desarrollar sistemas de traducción automática neuronal que se integren en el flujo de trabajo de la empresa Incyta.

Esta empresa de servicios lingüísticos de Barcelona utiliza desde hace años sistemas de traducción automática para llevar a cabo una posedición posterior. Este flujo de trabajo basado en la traducción automática más la posedición permite ofrecer un servicio de traducción más eficiente y económico, pero manteniendo el nivel de calidad, a su amplio abanico de clientes: prensa escrita, editoriales, administración pública, universidades, etc.

Hasta hace pocos años los sistemas de traducción automática ofrecían una calidad suficiente únicamente para pares de lenguas similares, como castellano-catalán o castellano-francés. En cambio, para lenguas un poco más alejadas, como español-inglés, por ejemplo, la calidad de la traducción automática no era suficiente. Resultaba más eficiente traducir el documento manualmente desde cero.

La aparición de los actuales sistemas de traducción automática neuronal han permitido obtener calidades destacables incluso para pares de lenguas muy alejadas, como el chino-español, por ejemplo. La aparición de estos sistemas ha constituido una verdadera revolución en el mundo de la traducción profesional, ya que abren la puerta a aplicar el flujo de traducción automática más posedición a la mayoría de los trabajos de traducción.

Los dos paradigmas: la traducción automática basada en reglas y la traducción automática basada en corpus

Pero para entender todo lo que está significando esta revolución tecnológica conviene recordar los dos principales paradigmas de traducción automática: la traducción automática basada en reglas y la traducción automática basada en corpus. En el primer paradigma, el basado en reglas, los sistemas de traducción automática los desarrollan ingenieros informáticos y lingüistas que escriben programas, diccionarios y reglas que permiten traducir una oración en una lengua de partida a una oración en la lengua de llegada.

El desarrollo de estos sistemas suele implicar muchos meses de trabajo de equipos de diversas personas. Dentro de los sistemas basados en reglas se pueden destacar los sistemas de transferencia sintáctica. En estos sistemas, la oración en la lengua de partida se analiza sintácticamente para obtener automáticamente un árbol de análisis. Este árbol de análisis, que puede ser profundo o superficial, se transfiere a un árbol equivalente en la lengua de llegada utilizando un conjunto de reglas.

Una vez obtenido este árbol sintáctico en la lengua de llegada, se traducen las palabras utilizando unos diccionarios bilingües y las palabras traducidas se flexionan para obtener una oración correcta en la lengua de llegada. Este paradigma ha funcionado muy bien para lenguas similares que tienen estructuras sintácticas bastante semejantes. Existen sistemas excelentes que utilizan esta metodología que todavía están en uso para pares de lenguas similares como el castellano y catalán.

En el segundo paradigma, los sistemas basados en corpus, los sistemas no se desarrollan, sino que se entrenan. Es decir, los sistemas aprenden a traducir a partir de textos en la lengua de partida y en la lengua de llegada. Para entrenar estos sistemas normalmente se utilizan corpus paralelos, es decir, conjuntos de segmentos u oraciones en una lengua con sus equivalentes de traducción en otra lengua.

Cómo hemos llegado hasta aquí: cronología de la traducción automática

Los primeros sistemas basados en corpus son los sistemas de traducción automática estadística, que irrumpieron con fuerza en el mercado hacia el año 2005. Estos sistemas se basan en el cálculo de dos probabilidades: la probabilidad de que una determinada oración en la lengua de llegada sea la traducción de una oración en la lengua de partida; y la probabilidad de que una determinada oración en la lengua de llegada sea una oración correcta en esa lengua. La primera probabilidad se puede calcular a partir de las estadísticas obtenidas a partir del corpus paralelo; mientras que la segunda probabilidad se calcula a partir de las estadísticas obtenidas en un corpus monolingüe de la lengua de llegada. Este corpus monolingüe se puede obtener de la parte del corpus paralelo correspondiente a la lengua de llegada.

A partir de 2015, aproximadamente, se empieza a imponer una nueva metodología de traducción automática basada en corpus, la traducción automática neuronal, que utiliza técnicas de inteligencia artificial: las redes neuronales. El uso de esta metodología ha hecho que la calidad de traducción alcance niveles ni siquiera imaginables hace algunos años y no únicamente para pares de lenguas relativamente similares, si no incluso para lenguas muy alejadas.

Machine learning: el gran salto de calidad

El gran aumento de calidad conseguido mediante la traducción automática neuronal ha hecho que los investigadores más optimistas reclamen la paridad en calidad entre la traducción automática y la traducción humana. Es decir, algunos investigadores reclaman que la calidad conseguida con los sistemas de traducción automática actuales es similar a la traducción humana. Muchos estudios posteriores, no obstante, han demostrado que esta paridad está todavía lejos y que continúa siendo imprescindible un proceso de posedición humana para conseguir niveles de calidad publicables.

Lo que sí que es cierto es que la fluidez y naturalidad obtenidas mediante la traducción automática neuronal pueden llegar a dar la sensación de que se obtienen traducciones perfectas, pero que pueden contener errores graves difíciles de detectar. Esto hace que la posedición de las traducciones obtenidas por sistemas neuronales tenga que ser realizadas por profesionales cualificados o por empresas que, como Incyta, cuentan con una amplia experiencia en posedición de traducción automática.

Para entrenar sistemas de traducción automática, tanto neuronales como estadísticos, existen una serie de toolkits, que proporcionan todas las herramientas y programas necesarios. Entre estos toolkits se pueden destacar los neuronales Marian y Open NMT y el estadístico Moses. Estas herramientas, además, se distribuyen mediante licencias libres muy permisivas, lo que potencialmente permiten a cualquier usuario entrenar sus propios sistemas de traducción automática. Sin embargo, este proceso de entrenamiento no es sencillo y por este motivo, desde hace unos años la Universitat Oberta de Catalunya desarrolla el proyecto MTUOC, que distribuye una serie de componentes que facilitan enormemente el proceso de entrenamiento e integración de sistemas de traducción automática neuronales y estadísticos.

El futuro: los retos de la traducción automática neuronal

Ahora bien, la traducción automática neuronal presenta todavía una serie de retos importantes que hace que esta sea una área de investigación muy activa. Para entrenar sistemas neuronales se necesitan corpus paralelos de calidad y de gran tamaño, como mínimo de entre cinco y diez millones de oraciones. Lamentablemente, estos corpus no están disponibles para todos los pares de lenguas. Para poder entrenar sistemas de traducción automática neuronal para pares de lenguas con pocos recursos se están explorando una serie de técnicas.

Por un lado, se está investigando en aprendizaje por transferencia (transfer learning), donde se pretende aprovechar el conocimiento que se puede obtener de un par de lenguas con muchos recursos y transferir este conocimiento a un par de lenguas con pocos recursos. Por ejemplo, para entrenar un sistema castellano-aranés, que presenta muy pocos recursos, se puede utilizar el conocimiento de un par como el castellano-catalán, que dispone de grandes corpus paralelos.

Otra técnica que se está explorando es el entrenamiento de sistemas multilingües, donde se entrenan sistemas que son capaces de traducir entre muchos pares de lenguas. De esta manera, el sistema resultante puede explotar las similitudes entre las lenguas. Así, se puede entrenar un sistema capaz de traducir entre las siguientes lenguas: castellano, portugués, gallego, catalán, asturiano, aragonés y aranés. En un sistema como este, los pares de lenguas con menos recursos, como por ejemplo el español-aranés, se aprovechan del conocimiento aprendido para el resto de pares de lenguas, como el español-portugués o el español-catalán. Los sistemas entrenados de esta manera son incluso capaces de traducir entre pares de lenguas para los que no existe ningún par de oraciones paralelas en el corpus de entrenamiento, como podría ser en nuestro ejemplo el par asturiano-aranés.

Por último, para pares de lenguas con muy pocos recursos, también se puede recurrir a la traducción automática no supervisada, en la que los sistemas no se entrenan con corpus paralelos, si no con corpus monolingües de la lengua de partida y de la lengua de llegada que no son traducciones el uno del otro. La ventaja de esta aproximación es que se dispone de muchos más textos monolingües en cualquier lengua y son más fáciles de compilar los corpus monolingües que los paralelos.

Traducción automática neuronal para las lenguas románicas de la península Ibérica

Todas estas técnicas se van a explorar en el proyecto "TAN-IBE: traducción automática neuronal para las lenguas románicas de la península Ibérica" que se va a iniciar en septiembre de este año. Este es un programa financiado por el Ministerio de Ciencia e Innovación mediante el programa "Proyectos de generación del conocimiento 2021". El proyecto está liderado por el Dr. Antoni Oliver de la Universitat Oberta de Catalunya y la empresa Incyta participa aportando toda su experiencia en traducción automática y posedición.

Otros aspectos relacionados con la traducción automática neuronal que se están investigando actualmente son la adaptación de los sistemas neuronales a un dominio concreto y la inclusión de conocimiento terminológico en los sistemas de traducción.

La empresa Incyta tiene un acuerdo de colaboración en transferencia de tecnología con la Universitat Oberta de Catalunya. Este convenio permite entrenar sistemas neuronales adaptados a dominios concretos y que se pueden integrar en la mayoría de herramientas de traducción asistida por ordenador. De esta manera, la empresa Incyta puede ofrecer a sus clientes motores de traducción automática neuronal personalizados para cualquier par de lenguas y áreas temáticas. Estos motores personalizados, junto a la dilatada experiencia de Incyta en posedición de traducción automática, permite obtener traducciones de gran calidad con unos costes y tiempos de entrega mínimos.