“Tus Estados Unidos eran normales”: ¿la tecnología de traducción realmente ha hecho que el aprendizaje de idiomas sea inútil?
Lo que la inteligencia artificial puede y lo que no puede
Cada día, millones de personas comienzan el día publicando un saludo en las redes sociales. Ninguno de ellos espera que lo lleven preso por su amistoso ritual matutino.
Pero eso es exactamente lo que le pasó a un trabajador de la construcción palestino en 2017, cuando la leyenda “يصبحهم” (“buenos días”) en su selfie de Facebook fue traducida automáticamente como “atacarlos”.
Un hablante de árabe humano habría inmediatamente reconocido “يصبحهم” como una forma informal de decir “buenos días”. No ocurre así con la IA. Las máquinas son notoriamente malas a la hora de lidiar con la variación, una característica clave de todos los lenguajes humanos.
Con los recientes avances en la traducción automática, se está arraigando la creencia de que los humanos, especialmente los anglohablantes, ya no necesitan aprender otros idiomas. ¿Por qué molestarse con el esfuerzo cuando Google Translate y muchas otras aplicaciones pueden hacerlo por nosotros?
De hecho, algunas universidades anglófonas están esgrimiendo precisamente este argumento para desmantelar sus programas de idiomas.
Desafortunadamente, las tecnologías del lenguaje no están ni cerca de poder reemplazar las habilidades lingüísticas humanas y no podrán hacerlo en el futuro previsible porque el aprendizaje del lenguaje automático y el aprendizaje del lenguaje humano difieren en aspectos fundamentales.
Cómo las máquinas aprenden idiomas
Para la traducción automática, los algoritmos se entrenan en grandes cantidades de textos para encontrar las probabilidades de diferentes patrones de palabras. Estos textos pueden ser tanto monolingües como bilingües.
Los datos de formación bilingüe se presentan en forma de textos paralelos traducidos por humanos. Casi siempre se basan en la versión estándar del idioma de formación, excluyendo dialectos y frases de jerga, como en el ejemplo anterior.
La diversidad es una característica de todos los lenguajes humanos, pero la diversidad es un problema para las máquinas. Por ejemplo, “mortal” significa “causar la muerte” en la mayoría de las variedades de inglés, y eso es lo que aparece en los datos de entrenamiento.
El significado australiano de “excelente” (del inglés aborigen) es un obstáculo. Si ingresas “Premios mortales” en cualquier aplicación de traducción, lo que obtendrás en tu idioma de destino es el equivalente a “premios que causan muertes”.
Cómo las máquinas almacenan idiomas
La diversidad lingüística interna del inglés, como de cualquier otro idioma, va acompañada de una gran diversidad entre idiomas. Cada idioma hace las cosas de manera diferente.
El tiempo, el número o el género, por ejemplo, deben codificarse gramaticalmente en algunos idiomas pero no en otros. Traducir la simple frase en inglés “Soy un estudiante” al alemán requiere la inclusión de una marca gramatical de género y, por lo tanto, terminará como “Soy un estudiante” o “Soy una estudiante”.
Además, algunas lenguas son habladas por mucha gente, cuentan con Estados nacionales poderosos que las respaldan y cuentan con buenos recursos. Otros no lo son.
“Con buenos recursos” en el contexto del aprendizaje automático significa que hay disponibles grandes corpus digitales de datos de capacitación.
Las listas de opciones de idioma que ofrecen las herramientas de traducción automática, como la lista de 133 idiomas en los que Google Translate está disponible actualmente, parece borrar todas estas diferencias y sugiere que cada opción es la misma.
La IA habla inglés
Nada podría estar más lejos de la verdad. El inglés es único en su clase, ya que más del 90 % de los datos de entrenamiento detrás de grandes modelos de lenguaje están en inglés.
El resto proviene de unas pocas docenas de idiomas, en los que se encuentran disponibles datos de distintos tamaños. La mayoría de los más de 6.000 idiomas del mundo simplemente están desaparecidos. Actualmente se están creando aplicaciones para algunos de ellos a partir de modelos “preentrenados” en inglés, lo que sirve aún más para consolidar el dominio de esa lengua.
Una consecuencia de las desigualdades en los datos de capacitación es que las traducciones al inglés generalmente suenan bastante bien porque la aplicación puede basarse en datos de capacitación tanto bilingües como monolingües. Esto no significa que sean precisas: un estudio reciente encontró que aproximadamente la mitad de todas las preguntas en vietnamita fueron traducidas automáticamente, en forma incorrecta, como afirmaciones.
El texto traducido automáticamente a idiomas distintos del inglés es aun más problemático y habitualmente está plagado de errores. Por ejemplo, la información sobre las pruebas de COVID-19 traducida automáticamente al alemán incluía palabras inventadas, errores gramaticales e inconsistencias.
Qué puede y qué no puede hacer la traducción automática
La traducción automática no es tan buena como la mayoría de la gente piensa, pero es útil para entender la esencia de los sitios web o poder pedir direcciones en un destino turístico con la ayuda de una aplicación.
Sin embargo, ahí no es donde termina. Las aplicaciones de traducción se utilizan cada vez más en contextos de alto riesgo, como los hospitales, donde el personal puede intentar evitar a los intérpretes humanos para comunicarse rápidamente con pacientes con conocimientos limitados. en inglés.
Esto causa grandes problemas cuando, por ejemplo, las instrucciones de alta de un paciente indican el equivalente a “Sus Estados Unidos eran normales”: un error resultante del uso de la abreviatura “US” para “ultrasonido” en contextos médicos.
Por lo tanto, existe consenso en que las aplicaciones de traducción son adecuadas sólo en situaciones sin riesgos o de bajo riesgo. Infortunadamente, a veces hasta el título de una selfie puede convertirse en una situación de alto riesgo.
Necesitamos cultivar el talento humano multilingüe
Solo los humanos pueden identificar qué constituye una situación de bajo o alto riesgo y si el uso de la traducción automática puede ser apropiado. Para tomar decisiones informadas, los seres humanos deben comprender cómo funcionan los lenguajes y cómo funciona el aprendizaje automático.
Se podría argumentar que todos los errores descritos aquí se pueden solucionar con más datos de entrenamiento. Hay dos problemas con esta línea de razonamiento. En primer lugar, la IA ya tiene más datos de entrenamiento de los que cualquier ser humano jamás podrá ingerir, pero comete errores que ningún humano con niveles mucho más bajos de inversión en el aprendizaje de idiomas cometería.
En segundo lugar, y lo que es más pernicioso, entrenar máquinas para que aprendan idiomas por nosotros es increíblemente costoso. Por supuesto, existen los conocidos costos ambientales de la IA. Pero también está el coste de desmantelar los programas de enseñanza de idiomas.
Si dejamos de lado los programas de idiomas porque podemos subcontratar tareas multilingües simples a las máquinas, nunca capacitaremos a los humanos para que alcancen un dominio avanzado del idioma. Incluso desde la perspectiva del interés nacional puramente estratégico, las habilidades para comunicarse a través de las barreras lingüísticas en contextos más riesgosos de la economía, la diplomacia o la atención sanitaria son esenciales.
Los lenguajes son diversos, confusos, variables, relacionales y profundamente sociales. Los algoritmos son todo lo contrario. Al aceptar el rumor de que las máquinas pueden hacer que nuestro lenguaje funcione por nosotros deshumanizamos lo que significa usar lenguajes para comunicarnos, para dar significado, para crear relaciones. y construir comunidades.
Profesora Distinguida de Lingüística Aplicada, en la Universidad Macquarie, de Sydney.
La autora desea agradecer a Ava Vahedi, estudiante de maestría en matemáticas de la UNSW, por su ayuda para escribir este artículo.