Meta (Facebook) lanza un modelo de IA capaz de transcribir y traducir cerca de 100 idiomas
Un avance significativo en la conversión de voz y texto mediante IA
En su afán por desarrollar una IA capaz de comprender una amplia gama de dialectos diferentes, Meta ha creado un modelo de IA, SeamlessM4T, que puede traducir y transcribir cerca de 100 idiomas a través de texto y voz.
Disponible en código abierto junto con SeamlessAlign, un nuevo conjunto de datos de traducción, Meta afirma que SeamlessM4T representa un “avance significativo” en el campo de la conversión de voz y texto en IA.
“Nuestro modelo único proporciona traducciones a la carta que permiten a las personas que hablan diferentes idiomas comunicarse de manera más eficaz”, escribe Meta en una entrada de blog compartida con TechCrunch. “SeamlessM4T reconoce implícitamente los idiomas de origen sin necesidad de un modelo separado de identificación de idiomas”.
SeamlessM4T es una especie de sucesor espiritual de Meta's No Language Left Behind, un modelo de traducción automática de texto a texto, y de Universal Speech Translator, uno de los pocos sistemas de traducción directa de voz a voz compatible con el idioma hokkien. Y se basa en Massively Multilingual Speech, el marco de Meta que ofrece reconocimiento del habla, identificación de idiomas y tecnología de síntesis del habla en más de 1.100 idiomas.
Meta no es la única que invierte recursos en desarrollar sofisticadas herramientas de traducción y transcripción con IA.
Además de la gran cantidad de servicios comerciales y modelos de código abierto ya disponibles en Amazon, Microsoft, OpenAI y varias empresas emergentes, Google está creando lo que denomina Modelo Universal del Habla, que forma parte de un esfuerzo más amplio del gigante tecnológico por construir un modelo capaz de entender los 1.000 idiomas más hablados del mundo. Mozilla, por su parte, encabezó Common Voice, una de las mayores colecciones multilingües de voces para entrenar algoritmos de reconocimiento automático del habla.
Pero SeamlessM4T es uno de los esfuerzos más ambiciosos hasta la fecha para combinar las capacidades de traducción y transcripción en un único modelo.
Para desarrollarlo, Meta afirma haber recopilado texto (del orden de “decenas de miles de millones” de frases) y voz (4 millones de horas) de la web. En una entrevista con TechCrunch, Juan Pino, investigador científico de la división de investigación de IA de Meta y colaborador en el proyecto, no quiso revelar las fuentes exactas de los datos, limitándose a decir que había “una gran variedad” de ellos.
No todos los creadores de contenidos están de acuerdo con la práctica de aprovechar datos públicos para entrenar modelos que podrían utilizarse comercialmente. Algunos han presentado demandas contra empresas que crean herramientas de inteligencia artificial a partir de datos públicos, alegando que los proveedores deberían estar obligados a dar crédito, si no compensación, y a ofrecer formas claras de excluirse.
Pero Meta afirma que los datos que extrajo -que podrían contener información personal identificable, según admite la empresa- no estaban protegidos por derechos de autor y procedían principalmente de fuentes de código abierto o con licencia.
En cualquier caso, Meta utilizó el texto y la voz extraídos para crear el conjunto de datos de entrenamiento de SeamlessM4T, llamado SeamlessAlign. Los investigadores alinearon 443.000 horas de voz con textos y crearon 29.000 horas de alineaciones “voz a voz”, que “enseñaron” a SeamlessM4T a transcribir voz a texto, traducir texto, generar voz a partir de texto e incluso traducir palabras habladas en un idioma a palabras en otro idioma.
Meta afirma que, en una prueba comparativa interna, SeamlessM4T obtuvo mejores resultados frente a ruidos de fondo y “variaciones del hablante” en tareas de conversión de voz a texto que el actual modelo de transcripción de voz de última generación. Meta lo atribuye a la rica combinación de datos de voz y texto en el conjunto de datos de entrenamiento, que, en su opinión, da a SeamlessM4T una ventaja sobre los modelos de sólo voz y sólo texto.
“Con resultados de vanguardia, creemos que SeamlessM4T es un avance importante en la búsqueda de la comunidad de IA para crear sistemas multitarea universales”, escribe Meta en su blog.
Pero cabe preguntarse qué sesgos puede contener el modelo.
Un artículo publicado recientemente en The Conversation señala los numerosos defectos de la traducción asistida por IA, entre los que se incluyen distintas formas de sesgo de género. Por ejemplo, Google Translate presuponía que los médicos eran hombres y las enfermeras mujeres en algunos idiomas, mientras que el traductor de Bing traducía frases como “la mesa es blanda” por el femenino “die Tabelle” en alemán, que se refiere a una tabla de cifras.
Los algoritmos de reconocimiento de voz también suelen contener sesgos. Un estudio publicado en The Proceedings of the National Academy of Sciences demostró que los sistemas de reconocimiento de voz de las principales empresas tenían el doble de probabilidades de transcribir incorrectamente el audio de hablantes negros que el de hablantes blancos.
Como era de esperar, SeamlessM4T no es el único en este sentido.
En un libro blanco publicado junto a la entrada del blog, Meta revela que el modelo “sobregeneraliza a las formas masculinas cuando traduce a partir de términos neutros” y obtiene mejores resultados cuando traduce a partir de la referencia masculina (por ejemplo, sustantivos como “él” en inglés) para la mayoría de los idiomas.
Además, en ausencia de información sobre el género, SeamlessM4T prefiere traducir la forma masculina alrededor del 10% de las veces, quizá debido a una “sobrerrepresentación del léxico masculino” en los datos de entrenamiento, especula Meta.
Meta defiende que SeamlessM4T no añade una cantidad excesiva de texto tóxico en sus traducciones, un problema común con la traducción y los modelos de texto de IA generativa en general. Pero no es perfecto. En algunos idiomas, como el bengalí y el kirguís, SeamlessM4T hace más traducciones tóxicas -es decir, traducciones odiosas o profanas- sobre el estatus socioeconómico y la cultura. Y, en general, SeamlessM4T es más tóxica en las traducciones que tratan sobre orientación sexual y religión. Meta señala que la demo pública de SeamlessM4T contiene un filtro para la toxicidad en el discurso de entrada, así como un filtro para el discurso de salida potencialmente tóxico. Sin embargo, ese filtro no está presente por defecto en la versión de código abierto del modelo.
El mayor problema de los traductores automáticos que no se aborda en el informe es la pérdida de riqueza léxica que puede derivarse de su uso excesivo. A diferencia de la IA, los intérpretes humanos toman decisiones exclusivas cuando traducen de una lengua a otra. Pueden explicar, normalizar o condensar y resumir, creando huellas digitales conocidas informalmente como “traductología”. Los sistemas de IA pueden generar traducciones más “precisas”, pero éstas podrían hacerse a expensas de la variedad y diversidad de la traducción.
Probablemente por eso Meta desaconseja utilizar SeamlessM4T para traducciones largas y traducciones juradas, como las reconocidas por organismos gubernamentales y autoridades de traducción.Meta también desaconseja el uso de SeamlessM4T con fines médicos o jurídicos, presumiblemente para cubrirse las espaldas en caso de traducción errónea.
Es un acierto, ya que se han dado al menos unos cuantos casos en los que las traducciones erróneas de la IA han dado lugar a errores policiales. En septiembre de 2012, la policía se enfrentó erróneamente a un hombre kurdo por financiación del terrorismo debido a un mensaje de texto mal traducido.
Y en 2017, un policía de Kansas utilizó Google Translate para preguntar a un hispanohablante si podían registrar su coche en busca de drogas, pero como la traducción era inexacta, el conductor no entendió bien a qué había accedido y el caso acabó siendo desestimado.”Este enfoque de sistema único reduce los errores y los retrasos, aumentando la eficacia y la calidad del proceso de traducción, lo que nos acerca a hacer posible una traducción sin fisuras”, dijo Pino.”En el futuro, queremos explorar cómo este modelo fundacional puede permitir nuevas capacidades de comunicación, acercándonos en última instancia a un mundo en el que todo el mundo pueda entenderse”.Esperemos que en ese futuro los humanos no queden completamente al margen.