“Si suena bien, debe ser humano”: La IA lingüística de Google nos expone como oyentes superficiales
Una máquina “sensitiva” explora la diferencia entre un lenguaje fluido y un pensamiento fluido, y las consecuencias de confundir ambos.
Cuando lees una frase como la del título, tu experiencia previa te dice que está escrita por un humano que piensa y siente. Y, en este caso, sí hay un humano escribiendo estas palabras: [Pero hoy en día, algunas frases que parecen extraordinariamente humanas son generadas por sistemas de inteligencia artificial entrenados con grandes cantidades de texto humano.
La gente está tan acostumbrada a asumir que el lenguaje fluido proviene de un ser humano que piensa y siente, que la evidencia de lo contrario puede ser difícil de entender. ¿Cómo puede la gente navegar por este territorio relativamente inexplorado? Debido a la persistente tendencia a asociar la expresión fluida con el pensamiento fluido, es natural ―pero potencialmente engañoso― pensar que si un modelo de IA puede expresarse con fluidez, eso significa que piensa y siente igual que los humanos.
Por ello, no es de extrañar que un antiguo ingeniero de Google afirmara recientemente que el sistema de IA de Google, LaMDA, tiene sentido de sí mismo porque puede generar textos elocuentes sobre sus supuestos sentimientos. Este suceso y la posterior cobertura mediática dieron lugar a una serie de artículos y posts acertadamente escépticos sobre la afirmación de que los modelos computacionales del lenguaje humano son sensitivos, es decir, capaces de pensar, sentir y experimentar.
La cuestión de lo que significa que un modelo de IA sea sensitivo es complicada (véase, por ejemplo, la opinión de nuestro colega), y nuestro objetivo aquí no es resolverla. Pero como investigadores del lenguaje, podemos utilizar nuestro trabajo en la ciencia cognitiva y la lingüística para explicar por qué es demasiado fácil para los humanos caer en la trampa cognitiva de pensar que una entidad que puede usar el lenguaje con fluidez es sintiente, consciente o inteligente.
Utilizar la IA para generar un lenguaje similar al humano
El texto generado por modelos como LaMDA de Google puede ser difícil de distinguir del texto escrito por humanos. Este impresionante logro es el resultado de un programa de décadas para construir modelos que generen un lenguaje gramatical y significativo.
Las primeras versiones, que se remontan al menos a la década de 1950, conocidas como modelos de n-gramas, se limitaban a contar las apariciones de frases específicas y las utilizaban para adivinar qué palabras era probable que aparecieran en determinados contextos. Por ejemplo, es fácil saber que “mantequilla de cacahuete y mermelada” es una frase más probable que “mantequilla de cacahuete y piñas”. Si tiene suficiente texto en inglés, verá la frase “mantequilla de cacahuate y piñas” una y otra vez, pero puede que nunca vea la frase “mantequilla de cacahuete y piñas”.
Los modelos actuales, conjuntos de datos y reglas que se aproximan al lenguaje humano, difieren de estos primeros intentos en varios aspectos importantes. En primer lugar, se entrenan básicamente con toda la internet. En segundo lugar, pueden aprender las relaciones entre palabras muy distantes entre sí, no sólo entre palabras vecinas. En tercer lugar, se ajustan mediante un gran número de “botones” internos, tantos que incluso a los ingenieros que los diseñan les resulta difícil entender por qué generan una secuencia de palabras en lugar de otra.
Sin embargo, la tarea de los modelos sigue siendo la misma que en los años 50: determinar qué palabra es la siguiente. Hoy son tan buenos en esta tarea que casi todas las frases que generan parecen fluidas y gramaticales.
¿Mantequilla de cacahuete y piña?
Pedimos a un gran modelo lingüístico, el GPT-3, que completara la frase “cacahuete y piña ___”. Dijo: “La mantequilla de cacahuete y las piñas son una gran combinación. Los sabores dulce y salado de la mantequilla de cacahuete y la piña se complementan perfectamente”. Si una persona dice esto, se puede deducir que ha probado la mantequilla de cacahuete y la piña juntas, se ha formado una opinión y la ha compartido con el lector.
Pero, ¿cómo se le ocurrió a GPT-3 este párrafo? Generando una palabra que se ajustara al contexto que le proporcionamos. Y luego otra. Y luego otra más. El modelo nunca vio, tocó o probó las piñas, sólo procesó todos los textos de Internet que las mencionan. Y, sin embargo, la lectura de este párrafo puede llevar a la mente humana ―incluso a la de un ingeniero de Google― a imaginar a GPT-3 como un ser inteligente que puede razonar sobre platos de mantequilla de cacahuete y piña.
El cerebro humano está programado para inferir las intenciones detrás de las palabras. Cada vez que entras en una conversación, tu mente construye automáticamente un modelo mental de tu interlocutor. A continuación, utiliza las palabras que dicen para completar el modelo con los objetivos, sentimientos y creencias de esa persona.
El proceso de pasar de las palabras al modelo mental es fluido y se activa cada vez que recibes una frase completa. Este proceso cognitivo le ahorra mucho tiempo y esfuerzo en la vida cotidiana, facilitando enormemente sus interacciones sociales.
Sin embargo, en el caso de los sistemas de inteligencia artificial, falla al construir un modelo mental de la nada.
Un poco más de investigación puede revelar la gravedad de este fallo. Consideremos la siguiente pregunta: “La mantequilla de cacahuete y las plumas saben muy bien juntas porque___”. GPT-3 continuó: “La mantequilla de cacahuete y las plumas saben muy bien juntas porque ambas tienen un sabor a nuez. La mantequilla de cacahuete también es suave y cremosa, lo que ayuda a compensar la textura de la pluma”.
El texto en este caso es tan fluido como nuestro ejemplo con las piñas, pero esta vez el modelo está diciendo algo decididamente menos sensato. Uno empieza a sospechar que GPT-3 nunca ha probado la mantequilla de cacahuete y las plumas.
Atribuir inteligencia a las máquinas, negarla a los humanos
Una triste ironía es que el mismo sesgo cognitivo que hace que la gente atribuya humanidad a la GPT-3 puede hacer que trate a los humanos reales de forma inhumana. La lingüística sociocultural ―el estudio del lenguaje en su contexto social y cultural― demuestra que asumir un vínculo demasiado estrecho entre la expresión fluida y el pensamiento fluido puede llevar a prejuicios contra las personas que hablan de forma diferente.
Por ejemplo, las personas con acento extranjero suelen ser percibidas como menos inteligentes y tienen menos probabilidades de conseguir los trabajos para los que están cualificadas. Existen prejuicios similares contra los hablantes de dialectos que no se consideran prestigiosos, como el inglés del sur de EE.UU., contra las personas sordas que utilizan el lenguaje de signos y contra las personas con impedimentos en el habla, como la tartamudez.
Estos prejuicios son profundamente perjudiciales, suelen dar lugar a suposiciones racistas y sexistas, y se ha demostrado una y otra vez que son infundados.
Lenguaje fluido no implica humanidad
¿Llegará la IA a ser sensitiva algún día? Esta pregunta requiere una profunda reflexión y, de hecho, los filósofos han reflexionado sobre ella durante décadas. Lo que los investigadores han determinado, sin embargo, es que no se puede confiar simplemente en un modelo de lenguaje cuando te dice lo que siente. Las palabras pueden ser engañosas y es demasiado fácil confundir un discurso fluido con un pensamiento fluido.