twitter account

Cómo enfrentar los errores en la traducción de textos por inteligencia artificial

14/11/2024
Raúl Limón

Casi todos los profesionales de la traducción recuerdan en defensa de su oficio frente a las opciones automáticas una ya famosa promoción en web de la ciudad de Santander, traducida de forma mecánica y sin supervisión humana posterior, que incluyó referencias al Centro Botín (el apellido de la conocida familia financiera de origen local) como Loot center (centro del pillaje) o el casco histórico como historic helmet (artefacto histórico para proteger la cabeza).

Una investigación reciente del profesor de la Universidad Pablo de Olavide (UPO) Santiago Rodríguez-Rubio añade un elemento más para tener en cuenta en estas ya comunes herramientas informáticas de traducción: las erratas. Los errores originales se replican, se sustituyen por otros o se obvian y en textos médicos o en traductores ideados para zonas de conflicto o en referencias financieras y legales las consecuencias pueden ser relevantes.

Stephen Ibaraki, asesor internacional tecnológico que defiende las ventajas de los últimos desarrollos y fundador de AI For Good, aporta ejemplos de buen uso: “Un agricultor indio no puede hablar las 22 lenguas oficiales. Ahora, con solo un teléfono, pueden comunicar sus necesidades para conseguir ayuda. O en África, donde la inteligencia artificial se propaga ampliamente, la gente común puede obtener asistencia médica o favorecer su inclusión financiera. Las últimas gafas de Meta tienen capacidades de traducción simultánea y estas tecnologías terminarán siendo accesibles en todas partes”.

Pero las aplicaciones cotidianas se hacen más vulnerables en escenarios complejos. La Agencia de Proyectos de Investigación Avanzados de Defensa de Estados Unidos (DARPA, por sus siglas en inglés), encargó hace 14 años el proyecto Transtac, un sistema de traducción para usos tácticos en 25 escenarios de conflicto, como puestos de control, comunicación de información clave, interrupción de suministros, inspección de instalaciones o evaluaciones médicas. El desarrollo alcanzó un 80% de precisión, considerado bastante, pero insuficiente para su uso en circunstancias delicadas donde un error puede desencadenar una reacción violenta.

El ámbito médico también precisa de traducciones más específicas que eviten los errores. Investigadores de las universidades de Michigan, Nueva York y Washington han analizado las transcripciones de Whisper, una aplicación de OpenAI, e identificado alucinaciones (errores y frases inventadas con apariencia de resultado correcto) en entre el 38% y el 80% de los casos analizados, especialmente de audio a texto. Whisper se usa en diferentes entornos para traducir reuniones o generar subtítulos, pero los técnicos que han examinado la herramienta han alertado de que también se está utilizando en centros médicos para transcribir consultas de pacientes.

“Tales errores podrían tener consecuencias realmente graves, particularmente en entornos hospitalarios. Nadie quiere un diagnóstico erróneo. Debería haber un listón más alto”, afirma Alondra Nelson, profesora en Princeton y exdirectora de la Oficina de Política Científica y Tecnológica de la Casa Blanca a Associated Press. En una transcripción analizada, Whisper inventó un medicamento inexistente llamado “antibióticos hiperactivados”. Un portavoz de OpenAI ha respondido tras las investigaciones que la compañía estudia continuamente cómo reducir las alucinaciones, aprecia los hallazgos y advierte: “La herramienta no debe usarse en entornos de alto riesgo”.

Lo mismo sucede en contextos legales, donde es imprescindible conocer con exactitud los términos que se firman, o financieros. Rodríguez Rubio pone de ejemplo cómo la expresión errónea que quería decir “exceso de pasivo” se tradujo al inglés por “hachas” de pasivo.

Para poner a prueba los sistemas de traducción automática, el profesor de la universidad sevillana ha introducido intencionadamente 1820 errores tipográficos en textos de origen encontrados en un trabajo previo sobre diccionarios especializados español-inglés. El trabajo detectó que “la repetición de la errata de origen es el fenómeno más frecuente” en los dos sistemas analizados: Google Translate y DeepL. Aunque el primero arrojó mejores resultados, ambos incurrieron en estas y otras deficiencias, como adaptar el error intencionado (la errata excusive se traduce por excusivo), suprimirlo o transformar una palabra en otra (al escribir vancies en lugar de vacancies el traductor convirtió el error en furgonetas, vans).

Rodríguez-Rubio, doctor por la UPO y miembro del departamento de Filología y Traducción, no desdeña los traductores automáticos, sino todo lo contrario. Su investigación pretende “arrojar luz sobre la capacidad de los sistemas para hacer frente a los errores tipográficos del texto de origen y proporcionar un punto de partida para su perfeccionamiento”.

“Las aplicaciones de la IA [inteligencia artificial] a la corrección del lenguaje son innegables. La tecnología siempre ha sido y seguirá siendo un pilar fundamental, lo que no quiere decir que no se deban analizar los desarreglos y efectos indeseados que esa tecnología pueda generar, por ejemplo, en relación con el ruido informativo, la cultura de la inmediatez, la confianza ciega y la falta de reflexión que todo ello pudiera conllevar.

En este sentido, para el investigador, la proliferación de errores “es un síntoma de un problema mayor”. “Las erratas que plagan los textos modernos son un indicador del problema de fondo de las disfunciones de la revolución tecnológica, de la reconfiguración del papel del hombre y la máquina en los procesos de trabajo, de la cultura de las prisas y de la inmediatez”, asegura.

Rodríguez-Rubio advierte del “alcance limitado” de su estudio al centrarse en el aspecto formal y acotado al impacto de las erratas del texto original en el resultado de la traducción de palabras aisladas o de frases cortas. Pero admite que es una indicación para mejorar los sistemas basados en inteligencia artificial.

En concreto, señala nuevas áreas de posible estudio que su trabajo ha abordado de forma tangencial, como la sinonimia, cuando cambiar una palabra como rejection por su sinónimo refusal puede marcar una diferencia sustancial; la antonimia, cuando las sustituciones automáticas de palabras invierten el sentido, como la traducción de DeepL de la palabra errónea por la omisión de una letra undestanding por ‘sin entender’; y la paronimia, la dificultad de detectar erratas en palabras similares, especialmente, las que empiezan y terminan igual, como gastronomy (arte culinario) por gastrostomía (gastrostomy), intervención quirúrgica para introducir una sonda de alimentación en el estómago.

La clave de estos traductores automáticos es la información de la que se alimentan, la columna vertebral de cualquier aplicación de inteligencia artificial. Si el error de origen se replica o se modifica para generar un resultado peor que el original, la precisión de los sistemas fracasa. “Contar con una base de datos sólida es fundamental para ofrecer capacidades de IA generativa”, advierte Baris Gultekin, responsable de IA de Snowflake en la presentación de un estudio en colaboración con MIT Technology Review Insights.

En este mismo sentido, una investigación publicada en Nature muestra que los resultados de la IA se degradan cuando esta se entrena con datos generados también por inteligencia artificial. Ilia Shumailov, científico informático de la Universidad de Oxford que dirigió el estudio, compara el proceso con tomar fotos de fotos: “Si tomas una imagen y la escaneas y luego la imprimes y repites este proceso, con el tiempo, básicamente el ruido abruma todo el proceso”. Es lo que llama “colapso del modelo”.

Google es consciente de las limitaciones y trabaja en su mitigación. En este sentido, un portavoz de la compañía explica: “Translate funciona aprendiendo patrones a partir de muchos millones de ejemplos de traducciones vistas en la web. Por desgracia, algunos de esos patrones pueden dar lugar a traducciones incorrectas. Agradecemos a los usuarios que nos avisan de estos errores para poder actuar con rapidez y solucionarlos. Para garantizar la calidad de nuestras traducciones, entrenamos y probamos rigurosamente nuestros sistemas, al igual que hacemos con todas nuestras herramientas y productos en Google”.