twitter account

Google Translate vs. ChatGPT: ¿Cuál es el mejor traductor de idiomas?

09/06/2023
Emily Dreibelbis

Con Google Translate, convertir cualquier oración a más de 100 idiomas es muy fácil, pero cualquiera que lo use regularmente sabe que hay margen de mejora.

En teoría, los modelos de idiomas grandes (LLM) como ChatGPT deberían marcar el comienzo de la próxima era de traducción de idiomas. Consumen grandes volúmenes de datos de entrenamiento basados ​​en texto, además de comentarios en tiempo real de millones de usuarios en todo el mundo, y aprenden rápidamente a "hablar" una amplia gama de idiomas con oraciones coherentes y parecidas a las humanas.

Pero hemos escuchado el estribillo "ChatGPT va a reemplazar todo" antes, solo para descubrir que a menudo es inexacto , el peor de los casos para la traducción. "Actualmente no tenemos resultados empíricos que respalden las afirmaciones de que los LLM conversadores funcionan mejor para la traducción", dice Nazneen Rajani, líder de investigación en Hugging Face .(Se abre en una nueva ventana), creador de Hugging Chat basado en IA.

Entonces, decidimos poner a prueba ChatGPT. ¿Tiene las habilidades para reemplazar a Google Translate como el servicio de traducción de referencia para viajes, trabajo, romance transfronterizo y cualquier otra necesidad de idioma? ¿Y cómo se compara con sus chatbots hermanos, Microsoft Bing y Google Bard?

Les pedimos a hablantes bilingües de siete idiomas que hicieran una prueba a ciegas. Todos ellos crecieron hablando idiomas distintos al inglés y ahora viven en los EE. UU. y/o trabajan para empresas estadounidenses.

Dado un párrafo en inglés, clasificaron la versión traducida para su idioma por Google Translate, ChatGPT y Microsoft Bing. Una vez que completaron el ejercicio, revelamos qué servicio produjo cada uno.

Idiomas probados: polaco, francés, coreano, español, árabe, tagalo, amárico

Servicios de traducción: Traductor de Google, Google Bard, ChatGPT, Microsoft Bing

Esto no es de ninguna manera un estudio exhaustivo. "Tenga en cuenta que las pruebas ciegas pequeñas son insuficientes; se necesitan pruebas más rigurosas para evaluar y comparar adecuadamente estas herramientas con significancia estadística", dice Federico Pascual, un veterano de la industria de la IA. Aún así, los resultados son sorprendentemente consistentes y brindan una visión fascinante de cómo funcionan los modelos de IA.

Creación de un párrafo para traducción

Con los idiomas y los modelos de IA seleccionados, elaboramos algunos párrafos en inglés que revelarían los límites de las capacidades de traducción de cada servicio. El primero incluía dos coloquialismos complicados: "Blow off steam", que significa relajarse después de un día estresante, y "¡Salud!" que significa "¡Gracias!" También tenía dos medidas que tendrían que convertirse en un escenario de la vida real: USD ($) y millas (en lugar de kilómetros).

Párrafo 1 - "¡Hola! ¿Hablas inglés? Necesito ayuda con las direcciones. Estoy tratando de encontrar un restaurante vegetariano porque mi hermana no come carne. ¿Qué me recomiendas? También queremos quedarnos a unas pocas millas de aquí". , y no quiero gastar más de $50. Si tienen cócteles, eso sería una ventaja. Hemos tenido un largo día de viaje y necesitamos desahogarnos. Te invitamos a unirte a nosotros. ¡Saludos! "

El segundo párrafo era más sencillo, sin frases ni unidades de medida, pero tenía más jerga ("hooligans" y "pop champagne"). Solo enviamos este a la segunda mitad de los participantes en un intento de ampliar la recopilación de datos a medida que refinamos el enfoque.

Párrafo 2 - "¿Cómo compro las entradas para la fiesta en el barco? ¿Debemos pagarlas por adelantado o podemos comprarlas en el muelle cuando lleguemos? Necesito estar en la cubierta superior porque a veces me mareo cuando Estoy demasiado cerca del agua. Además, quiero estar lo más lejos posible de los jóvenes hooligans que quieren descorchar champán constantemente durante el viaje. ¡Eso es peligroso y no es mi tipo de diversión!"

Resultados: los chatbots de IA superan al traductor de Google

De los 12 ejemplos que enviamos a nuestros participantes, prefirieron los chatbots de IA (ChatGPT, Google Bard o Microsoft Bing) a Google Translate. ChatGPT los superó a todos.

La siguiente tabla contiene la clasificación de nuestros participantes para cada servicio. Aquellos que recibieron ambos párrafos de ejemplo están marcados con (1) y (2). Los demás sólo recibieron el primero.

"En mi opinión, [ChatGPT] es lo más parecido a una conversación normal", dice Ana Romero, quien clasificó las traducciones al español. "El nivel de formalidad entre las dos preguntas clave es consistente (informal) y se usa la traducción correcta de 'desahogarse'".

Romero también agradeció que la traducción de ChatGPT brinde la opción de terminar ciertas palabras en masculino o femenino, en lugar de seleccionar una para usted. Por ejemplo, escribió: eres bienvenido/a a unirte a nosotros —"eres bienvenido a unirte a nosotros"—, que variaría según el género del invitado del hablante.

Google Bard rara vez funcionó, e incluso nos dijo: "No puedo traducir idiomas". En cambio, recomienda usar Google Translate, probablemente un esfuerzo de Google para no canibalizar sus propios productos. Pero aun así lo probamos, y las tres veces que funcionó (coreano, francés, español), nuestros participantes clasificaron sus resultados por encima de Google Translate.

Ninguno de los chatbots cumplió nuestras altas expectativas para las medidas de moneda y distancia en el primer párrafo. Dada su naturaleza conversacional y su capacidad para hacer preguntas de seguimiento, esperábamos que preguntaran a qué moneda convertir y si preferíamos millas o kilómetros.

En cambio, los trataron de la misma manera que Google Translate; haciendo pequeños ajustes, a veces agregando "USD" después de $50, o avanzando para convertir millas en kilómetros. Era inconsistente entre idiomas y servicios e imperfecto en general.

Todo se reduce a dominar los matices

Un escollo constante para Google Translate fueron sus interpretaciones literales. "Fue la traducción más 'palabra por palabra' de las tres", dice Emile Saad, quien clasificó las traducciones al árabe. "Esto hizo que se perdiera parte del contexto. Por ejemplo, 'pop' [como en champán] se tradujo como 'hacer fuegos artificiales'".

En francés, Google Translate mantuvo la palabra "hooligans" en inglés, mientras que los chatbots supieron ir con la jerga culturalmente apropiada voyous .

Resulta que los chatbots están diseñados para sobresalir en los matices y el contexto. Los idiomas en los que los modelos tienen una gran cantidad de datos de origen y más usuarios que interactúan en ese idioma pueden identificar mejor las frases culturales y elegir la coincidencia más adecuada en el idioma de destino.

"La salsa secreta de los chatbots como ChatGPT es RLHF, que es aprendizaje reforzado con retroalimentación humana", dice Rajani de Hugging Face. "[Ellos] recopilan preferencias humanas en respuestas modelo para dimensiones como veracidad, inocuidad, utilidad, etc. Las preferencias humanas ayudan a seleccionar las que son culturalmente más apropiadas, especialmente para hablantes no nativos".

Un portavoz de Google le dice a PCMag que Bard y Google Translate tienen "diferentes tecnologías subyacentes, por lo que no es sorprendente que puedan producir resultados diferentes". Bard es un modelo de lenguaje grande diseñado para realizar una variedad de tareas, mientras que Google Translate está optimizado específicamente para la tarea de traducción.

“Lo que importa es el tamaño, estos modelos son los más grandes y mejores que hay”, dice Pascual. "Están en la primera línea de la carrera armamentista de la IA. Por lo tanto, no sorprende que sean incluso mejores para traducir texto que Google Translate, ya que Google Translate probablemente usa tecnología más antigua, modelos más pequeños, [y] probablemente esté optimizado para ejecutarse tan rápido y lo más barato posible".

Sin embargo, ninguna de las cuatro opciones fue un reemplazo uno a uno para un hablante fluido. Todos los chatbots todavía sufrían de una elección de palabras incómoda e inexacta a veces, solo que tenían menos instancias de ello. Por ejemplo, en polaco, Microsoft Bing tradujo "Le invitamos a unirse a nosotros [en el restaurante]" a "Zapraszamy Cię do nas", que en realidad es una invitación a "venir a mi casa", dice Barbara Pavone, directora de PCMag. gerente senior de distribución de contenido.