ChatGPT está eliminando los idiomas distintos del inglés de la revolución de la IA
La ingeniera en computación Pascale Fung puede imaginar un futuro prometedor en el que los ayudantes de inteligencia artificial políglotas como ChatGPT superen las barreras del idioma. En ese mundo, los propietarios de tiendas indonesios que solo dominan los dialectos locales pueden llegar a nuevos compradores publicando sus productos en línea en inglés. “Puede abrir oportunidades”, dice Fung, luego hace una pausa. Ella detectó el sesgo en su visión de un futuro más interconectado: las compras asistidas por IA serían unilaterales, porque pocos estadounidenses se molestarían en usar la traducción de IA para ayudar a buscar productos anunciados en indonesio. “Los estadounidenses no tienen incentivos para aprender otro idioma”, dice ella.
No todos los estadounidenses se ajustan a esa descripción, aproximadamente uno de cada cinco habla otro idioma en casa, pero el predominio del inglés en el comercio mundial es real. Fung, directora del Centro de Investigación de IA de la Universidad de Ciencia y Tecnología de Hong Kong, quien habla siete idiomas, ve este sesgo en su propio campo. “Si no publica artículos en inglés, no es relevante”, dice. “Las personas que no hablan inglés tienden a ser castigadas profesionalmente”.
A Fung le gustaría ver que la IA cambie eso, no que refuerce más la primacía del inglés. Ella es parte de una comunidad global de investigadores de IA que prueban las habilidades lingüísticas de ChatGPT y sus chatbots rivales y hacen sonar la alarma sobre la evidencia de que son significativamente menos capaces en otros idiomas además del inglés.
Aunque los investigadores han identificado algunas soluciones potenciales, los chatbots, en su mayoría en inglés, se propagan. “Una de mis mayores preocupaciones es que vamos a exacerbar el sesgo hacia el inglés y los anglohablantes”, dice Thien Huu Nguyen, científico informático de la Universidad de Oregón que también ha estado en el caso contra los chatbots sesgados. “La gente seguirá la norma y no pensará en sus propias identidades o cultura. Mata la diversidad. Mata la innovación”.
Al menos quince trabajos de investigación publicados este año en el servidor de preimpresión arXiv.org, incluidos los estudios en coautoría de Nguyen y Fung , han probado el multilingüismo de los grandes modelos de idiomas, la clase de software de IA que impulsa experiencias como ChatGPT. Las metodologías varían, pero sus hallazgos coinciden: los sistemas de IA son buenos para traducir otros idiomas al inglés , pero tienen dificultades para reescribir el inglés a otros idiomas, especialmente aquellos, como el coreano, con escrituras no latinas .
A pesar de que se ha hablado mucho recientemente de que la IA se está convirtiendo en un ser sobrehumano , los sistemas similares a ChatGPT también luchan por mezclar con fluidez los idiomas en la misma expresión, por ejemplo, inglés y tamil, como lo hacen casualmente miles de millones de personas en el mundo todos los días. El estudio de Nguyen informa que las pruebas en ChatGPT en marzo mostraron que se desempeñó sustancialmente peor al responder preguntas fácticas o resumir textos complejos en idiomas distintos del inglés y era más probable que fabricara información. "Esta es una oración en inglés, por lo que no hay forma de traducirla al vietnamita", respondió el bot de manera incorrecta a una consulta.
A pesar de las limitaciones de la tecnología, los trabajadores de todo el mundo están recurriendo a los chatbots en busca de ayuda para elaborar ideas comerciales, redactar correos electrónicos corporativos y perfeccionar el código de software. Si las herramientas continúan funcionando mejor en inglés, podrían aumentar la presión para aprender el idioma sobre las personas que esperan ganar un lugar en la economía global. Eso podría impulsar una espiral de imposición e influencia del inglés que comenzó con el Imperio Británico.
No solo los académicos de IA están preocupados. En una audiencia del Congreso de EE. UU. este mes , el senador Alex Padilla, de California, preguntó a Sam Altman, director ejecutivo del creador de ChatGPT, OpenAI, con sede en el estado, qué está haciendo su empresa para cerrar la brecha lingüística. Alrededor del 44 por ciento de los californianos hablan un idioma que no es inglés. Altman dijo que esperaba asociarse con gobiernos y otras organizaciones para adquirir conjuntos de datos que reforzarían las habilidades lingüísticas de ChatGPT y ampliarían sus beneficios a "un grupo tan amplio como sea posible".
Padilla, que también habla español, se muestra escéptico acerca de los sistemas que ofrecen resultados lingüísticos equitativos sin grandes cambios en las estrategias por parte de sus desarrolladores. “Estas nuevas tecnologías son muy prometedoras para el acceso a la información, la educación y una mejor comunicación, y debemos asegurarnos de que el idioma no se convierta en una barrera para estos beneficios”, dice.
OpenAI no ha ocultado el hecho de que sus sistemas están sesgados. El boletín de calificaciones de la empresa sobre GPT-4, su modelo de lenguaje más avanzado , que está disponible para los usuarios de pago de ChatGPT, establece que la mayoría de los datos subyacentes provienen del inglés y que los esfuerzos de la empresa apuntan a afinar y estudiar el rendimiento del modelo centrado principalmente en el inglés “con un punto de vista centrado en los Estados Unidos”. O como escribió un miembro del personal en diciembre pasado en el foro de soporte de la compañía, luego de que un usuario preguntara si OpenAI agregaría soporte en español a ChatGPT, "Cualquier buen resultado en español es una ventaja". OpenAI se negó a comentar para esta historia.
Jessica Forde, estudiante de doctorado en ciencias de la computación en la Universidad de Brown, criticó a OpenAI por no evaluar a fondo las capacidades de GPT-4 en otros idiomas antes de lanzarlo. Ella se encuentra entre los investigadores a quienes les gustaría que las empresas expliquen públicamente sus datos de capacitación y realicen un seguimiento de su progreso en el soporte multilingüe. “El inglés se ha consolidado tanto porque la gente ha estado diciendo (y estudiando), ¿puede esto funcionar como un abogado en inglés o un médico en inglés? ¿Puede esto producir una comedia en inglés? Pero no están preguntando lo mismo sobre otros idiomas”, dice ella.
Los grandes modelos de lenguaje funcionan con palabras utilizando patrones estadísticos aprendidos de miles de millones de palabras de texto extraídas de Internet, libros y otros recursos. Más de esos materiales disponibles están en inglés y chino que en otros idiomas, debido al dominio económico de EE. UU. y la enorme población de China.
Debido a que los conjuntos de datos de texto también tienen otros idiomas mezclados, los modelos captan la capacidad en otros idiomas. Su conocimiento simplemente no es necesariamente completo. Como explicaron investigadores del Centro para la Democracia y la Tecnología en Washington, DC, en un artículo este mes, debido al predominio del inglés, “un modelo multilingüe podría asociar la palabra paloma en todos los idiomas con paz, aunque la palabra vasca para paloma ('uso') puede ser un insulto.”
Aleyda Solis encontró esa debilidad cuando probó el chat Bing de Microsoft , una herramienta de búsqueda que se basa en GPT-4 . El bot de Bing le proporcionó el término coloquial apropiado para las zapatillas de deporte en varios países de habla inglesa ("zapatillas deportivas" en el Reino Unido, "joggers" en partes de Australia), pero no proporcionó los términos apropiados para la región cuando se le preguntó en español sobre la jerga local del calzado en todo el mundo. Latinoamérica (“Zapatillas deportivas” para España, “championes” para Uruguay).
En un cuadro de diálogo separado, cuando se le preguntó en inglés, el chat de Bing identificó correctamente a Tailandia como la ubicación que se rumoreaba para el próximo escenario del programa de televisión White Lotus , pero proporcionó "en algún lugar de Asia" cuando la consulta se tradujo al español, dice Solís, quien dirige una consultoría llamada Orainti que ayuda a los sitios web a aumentar las visitas de los motores de búsqueda.
Los ejecutivos de Microsoft, OpenAI y Google que trabajan en chatbots han dicho que los usuarios pueden contrarrestar las respuestas deficientes agregando instrucciones más detalladas a sus consultas. Sin una guía explícita, el sesgo de los chatbots para recurrir al habla inglesa y las perspectivas de habla inglesa puede ser fuerte. Pregúntale a Veruska Anconitano, otra experta en optimización de motores de búsqueda, que divide su tiempo entre Italia e Irlanda. Encontró que hacer preguntas de chat de Bing en italiano obtenía respuestas en inglés a menos que especificara "Contéstame en italiano". En otro chat, dice Anconitano, Bing asumió que quería que el mensaje en japonés 元気ですか ("¿Cómo estás?") se tradujera al inglés en lugar de continuar la conversación en japonés.
Trabajos de investigación recientes han validado los hallazgos anecdóticos de personas que se encuentran con los límites de Bing chat y sus hermanos. Zheng-Xin Yong, estudiante de doctorado en la Universidad de Brown que también estudia modelos de idiomas multilingües, dice que él y sus colaboradores encontraron en un estudio que generar mejores respuestas para las preguntas en chino requería hacerlas en inglés, en lugar de en chino.
Cuando Fung en Hong Kong y sus colaboradores intentaron pedirle a ChatGPT que tradujera 30 oraciones, tradujo correctamente 28 del indonesio al inglés, pero solo 19 en la otra dirección, lo que sugiere que los estadounidenses monoglotas que recurren al bot para hacer tratos con comerciantes indonesios tendrían dificultades. Se encontró que la misma fluidez unidireccional limitada se repite en al menos otros cinco idiomas.
Los problemas de idioma de los modelos de idiomas grandes hacen que sea difícil confiar en ellos para cualquiera que se aventure más allá del inglés y quizás del chino. Cuando traté de traducir himnos sánscritos antiguos a través de ChatGPT como parte de un experimento en el uso de IA para acelerar la planificación de bodas, los resultados parecían lo suficientemente plausibles como para agregarlos a un guión de ceremonia. Pero no tenía idea de si podía confiar en ellos o si los mayores se reirían del escenario. Los investigadores que hablaron con WIRED ven algunos signos de mejora. Cuando Google creó su modelo de idioma PaLM 2, lanzado este mes, hizo un esfuerzo por aumentar los datos de capacitación en idiomas distintos del inglés para más de 100 idiomas. El modelo reconoce modismos en alemán y swahili, chistes en japonés y limpia la gramática en indonesio, dice Google, y reconoce las variaciones regionales mejor que los modelos anteriores.
Pero en los servicios al consumidor, Google mantiene a PaLM 2 enjaulado. Su chatbot Bard funciona con PaLM 2, pero solo funciona en inglés estadounidense, japonés y coreano. Un asistente de escritura para Gmail que usa PaLM 2 solo admite inglés. Se necesita tiempo para admitir oficialmente un idioma mediante la realización de pruebas y la aplicación de filtros para garantizar que el sistema no genere contenido tóxico. Google no hizo una inversión total para lanzar muchos idiomas desde el principio, aunque está trabajando para agregar más rápidamente.
Además de señalar las fallas de los modelos lingüísticos, los investigadores están creando nuevos conjuntos de datos de texto que no está en inglés para tratar de acelerar el desarrollo de modelos verdaderamente multilingües. El grupo de Fung está seleccionando datos en idioma indonesio para modelos de capacitación, mientras que el equipo multiuniversitario de Yong está haciendo lo mismo para los idiomas del sudeste asiático. Están siguiendo el camino de grupos que se enfocan en idiomas africanos y dialectos latinoamericanos.
“Queremos pensar en nuestra relación con Big Tech como una colaboración en lugar de una confrontación”, dice Skyler Wang, sociólogo de tecnología e inteligencia artificial en UC Berkeley que colabora con Yong. “Hay muchos recursos que se pueden compartir”.
Pero es poco probable que recopilar más datos sea suficiente, porque las resmas de texto en inglés son muy grandes y siguen creciendo. Aunque conlleva el riesgo de eliminar los matices culturales, algunos investigadores creen que las empresas tendrán que generar datos sintéticos, por ejemplo, mediante el uso de idiomas intermedios como el mandarín o el inglés para unir las traducciones entre idiomas con materiales de capacitación limitados. “Si comenzamos desde cero, nunca tendremos suficientes datos en otros idiomas”, dice Nguyen de la Universidad de Oregón. “Si quieres preguntar sobre un tema científico, lo haces en inglés. Lo mismo en finanzas”.
A Nguyen también le gustaría que los desarrolladores de IA estén más atentos a los conjuntos de datos que introducen en sus modelos y cómo afecta cada paso del proceso de construcción, no solo las respuestas finales. Hasta ahora, los idiomas que han terminado en los modelos han sido un "proceso aleatorio", dice Nguyen. Controles más rigurosos para alcanzar ciertos umbrales de contenido para cada idioma, como intentó hacer Google con PaLM, podrían mejorar la calidad de los resultados que no están en inglés.
Fung ha renunciado a usar ChatGPT y otras herramientas nacidas de grandes modelos de lenguaje para cualquier propósito más allá de la investigación. Su discurso con demasiada frecuencia le parece aburrido. Debido al diseño de la tecnología subyacente, las declaraciones de los chatbots son "el promedio de lo que hay en Internet", dice, un cálculo que funciona mejor en inglés y deja las respuestas en otros idiomas sin sabor.