La razón por la que la inteligencia artificial aún lucha por aprender lenguas
El sentido común nos diría que es necesario comprender un texto para traducirlo. Entonces ¿Puede un sistema de Inteligencia Artificial (IA) entender realmente un texto de la misma forma que un ser humano?
La forma más simple de abordar este problema de la traducción seria hacer, sencillamente, que un computador traduzca palabra por palabra utilizando un diccionario bilingüe digitalizado e ignorando las estructuras gramaticales.
No hace falta decir que los resultados de ese procedimiento simplista son con frecuencia incomprensibles e inútiles. Traducir entre lenguas humanas requiere de una inteligencia de alguna forma. ¡Un campo ideal para que la IA caliente sus músculos!
Uno de los dilemas más grandes de la traducción automática (TA) reside en que el lenguaje humano está repleto de ambigüedades. Los significados de las palabras o de frases enteras -y, por tanto, sus traducciones- no se pueden determinar de forma aislada, sino únicamente en un contexto. Este último puede incluir tan sólo otras palabras y frases, pero también conocimiento sobre el tema que se trata en el texto. En los siguientes ejemplos (originalmente en inglés), obsérvese como una misma frase tiene significados completamente diferentes, dependiendo de lo que viene antes o después de ella:
1) El hombre acaba de llegar al hospital. Su estado es precario.
El gobernador de Mississippi pidió más inversión. Su estado es precario
2) La decisión exigirá mucha inteligencia (información), de nuestros agentes secretos en todo el mundo. La decisión exigirá mucha inteligencia, pero, por desgracia, el presidente es estúpido.
3) El avióN aterrizó para drenar la electricidad estática.
El avión aterrizó, porque sus instalaciones eléctricas fueron alteradas.
Se puede observar que los diferentes significados de una sola frase, en general, se traducirán de forma diferente en otro idioma. Así, en el ejemplo 1, la primera acepción de “su estado es precario” se podría traducir en chino como 他 身体 不好,” su condición corporal no es buena”, mientras que en el segundo ejemplo se utilizarían términos completamente diferentes: 他 的 州 很穷, donde 穷 significa inequívocamente pobreza económica, y no se podría aplicar a un estado de salud.
Se observa también que decidir sobre el significado correcto, en general, requiere de un conocimiento factual.
En el ejemplo 3 el traductor debe saber que conectar un objeto eléctricamente al suelo es una forma de remover la electricidad estática, y que el mal funcionamiento de las
instalaciones eléctricas son una razón para impedir el despegue de un avión -un significado completamente diferente de “aterrizar”.
Es igualmente interesante que en el ejemplo 3 el Traductor Google parece ser engañado por las palabras electricidad y eléctrico y escoge erróneamente el primer significado para la segunda frase como para la primera. En chino, 接地 conectado al suelo, cuando la traducción correcta sería 停飞 (ordenado) para volar. Este error de traducción revela que el Traductor Google trabaja con correlaciones entre palabras, en lugar de su significado real.
La verdad es que planeo deliberadamente las frases para provocar ese error, como un“ejemplo contrario” (mientras tanto Google ya podía haber instalado una corrección). Es muy divertido inventar ejemplos semejantes jugando con los significados literales contra idiotices:
“Don’t pull my leg. It was badly injured in an accident”. (No empuje mi pierna. Fue gravemente herida en un accidente).”Don’t pull my leg”. Dime la verdad. (No te pases de listo. Dime la verdad.) “I am sick and tired. My doctor told me to rest and stay at home”. (Estoy enfermo y cansado. Mi doctor me dijo que descansase y me quedase en cada.) “My boos keeps screaming at me. I am sick and tired”. (Mi jefe me grita todo el día. Estoy harto.) “He is trying to fool you. Don’t let him take you for a ride”. (Él te está tratando de engañar. No te dejes engatusar.)
“He is a very poor driver. Don’t let him take you for a ride”. (Es un pésimo conductor. No dejes que te lleve a pasear.) “I had to sign the agreement, otherwise they would sue me. So I had no choice but to bite the bullet”. (Tuve que firmar el acuerdo, de lo contrario me habrían demandado. Así que no me quedó más remedio que hacer de tripas corazón.)
“He put a bullet in my mouth and said, if you don’t bite it, I’ll kill you. So I had no choice but to bite the bullet”. (Puso la bala en mi boca y me dijo que si no la mordía me mataba. Así que no me quedó más remedio que morder la bala.)
El Traductor Google también tiene problemas con estos. Si usted observa su propio proceso mental cuando lee esos ejemplos, descubrirá que su mente piensa, principalmente en términos de situaciones, en vez de palabras y de frases. Leer una frase como “el hombre acaba de llegar al hospital” activa automáticamente su imaginación.
Probablemente no imaginará directa y visualmente una escena con el paciente que llega al hospital; algo más en su mente comienza a moverse en esa dirección. A esto se le puede llamar “pre imaginación”.
De cierta forma, un texto leído es como una pieza escenificada que se desarrolla de varias formas al mismo tiempo. El público se queda relativamente, quieto en ocasiones, pero en otras se vuelve ruidoso y estridente, respondiendo al texto con todos los tipos de pensamientos y de impulsos.
Lo que estoy tratando de subrayar es que, en la mente humana, leer y comprender no es un proceso matemático “limpio”, como organizar y reorganizar las piezas de un rompecabezas. Algo muy diferente está pasando. Para usar una metáfora de la física: las palabras son como partículas que interactúan como el “camp” de sus procesos mentales. Estos procesos constituyen un “continuo” -un todo que no tiene partes que se puedan separar claramente unas de otras.
Es imposible que la IA en su estado actual pueda manejar ese “continuo” de procesos mentales. La IA es muy estúpida. Lo mejor que podría hacer sería aproximarse con el uso de enormes bancos de datos y de procedimientos matemáticos complejos. Como dije en el artículo anterior (Parte 11). Y Bar Hillel, uno de los pioneros de la traducción automática, argumentaba que la traducción 100 por ciento automática entre lenguas naturales, del tipo que podría competir con traductores humanos, sería imposible. Él ponía el énfasis en que la traducción correcta requiere con frecuencia un conocimiento previo del contenido del texto. Pero la totalidad del conocimiento sobre el mundo que el humano puede utilizar al traducir un texto, nunca la podría bajar un computador. Bar-Hillel mencionaba un número virtualmente “infinito” de datos. Yo prefiero hablar de un “continuo”.
¿Traducción a la altura humana?
El lector ahora se puede preguntar con justa razón: ¿Si los computadores son tan inherentemente estúpidos, como usted afirma, y si Bar Hillel vio barreras fundamentales para la traducción automática con una calidad humana, entonces, como explica usted que la IA de hoy esté amenazando con dejar sin empleo a muchos traductores profesionales?
Es cierto, 70 años de esfuerzo concentrado condujeron a sistemas de traducción de la IA que pueden competir con los humanos, por lo menos en ciertos tipos de textos y con algunos grados de criterios de calidad.
La prestigiosa revista Nature Communication publicó en septiembre un artículo titulado,Transformación de la traducción automática: un sistema de aprendizaje profundo alcanza una calidad de traducción de noticias comparable a profesionales humanos”. El artículo describe un sistema específico llamado CUBBITT (Charles Univesity Block-Backtranslation-Impoved). Los resultados reflejan el progreso general de los sistemas de traducción automática, en especial de aquellos que emplean el llamado “aprendizaje profundo” de redes neuronales artificiales. Los autores afirman:
La calidad de la traducción humana era considerada inalcanzable para los sistemas de traducción por computador. En este estudio presentamos el sistema de aprendizaje profundo, el CUBBITT, que desafía esa visión. En una evaluación ciega sensible al contexto hecha por jueces humanos, el CUBBITT superó significativamente la traducción de noticias de inglés al checo de agencias internacionales, conservando el significado del texto (adecuación de traducción)… Además, la mayoría de los participantes… tienen dificultades para distinguir las traducciones CUBBIT de las humanos”.
El artículo hace una evaluación elaborada del sistema CUBBITT, misma que no trataré de resumir.
Pero aquí va un aspecto destacado:
Los autores presentaron a las personas, todas con suficiente fluidez en ambas lenguas, que participaron en la prueba una serie de frases en inglés y traducciones a la lengua checa. La mitad de ellas fue hecha por traductores humanos profesionales y la otra mitad por el sistema CUBBIT, en orden aleatorio.
Se les pidió a estas personas que identificasen cuáles de ellas fueron hechas por profesionales y cuáles eran traducciones automáticas. De los 15 participantes, nueve dieron respuestas falsas la mitad de las veces; indicaron que no lograban distinguir con seguridad entre ambas. Entre esas nueve personas de la prueba había tres traductores de profesión, tres investigadores de TA y otros tres participantes.
Una prueba análoga realizada con otro grupo de personas usó el Traductor Google en lugar del CUBBITT, curiosamente, tuvo un resultado mucho menos favorable. Casi todos los participantes pudieron identificar las traducciones humanas, y tan sólo una no logró hacerlo de forma estrictamente significativa.
El artículo concluye:
“Este trabajo se aproxima a la calidad de traducción humana y hasta la supera en adecuación, en determinadas circunstancias. Esto indica que el aprendizaje profundo puede tener el potencial de sustituir a los humanos en aplicaciones en las que la conservación del significado es el objetivo principal”.
Los autores admiten que las traducciones del CUBBITT no alcanzan la misma suavidad o la fluidez de estilo de los traductores humanos:
“Los traductores humanos altamente calificados, con un volumen infinito de tiempo y de recursos, producirán, probablemente, traducciones mejores que cualquier sistema de traducción automática. Sin embargo, muchos clientes no pueden pagar los servicios de esos traductores y, en lugar de eso, usan los servicios de agencias de traducción profesionales, donde los traductores están bajo cierta presión de tiempo. La presión de tiempo, naturalmente, degrada la calidad del trabajo de los traductores humanos, al punto de que cometen más errores en promedio que los mejores sistemas de TA. Estos últimos también pueden ofrecer mayor velocidad. Así las cosas, en un determinado dominio de la TA -en las tareas de traducción más rutinarias y no sensibles, en particular, donde el estilo fluido no es una consideración de peso- la IA puede llegar a una capacidad “sobrehumana”.