Los modelos de lenguaje grandes usan un mecanismo sorprendentemente simple para acceder a los datos almacenados
Los grandes modelos de lenguaje, como los que impulsan los populares chatbots de inteligencia artificial como ChatGPT, son increíblemente complejos. Aunque estos modelos se utilizan como herramientas en muchas áreas, como atención al cliente, generación de códigos y traducción de idiomas, los científicos aún no comprenden completamente cómo funcionan.
En un esfuerzo por comprender mejor lo que sucede bajo el capó, investigadores del MIT y de otros lugares estudiaron los mecanismos que funcionan cuando estos enormes modelos de aprendizaje automático recuperan el conocimiento almacenado.
Encontraron un resultado sorprendente: los modelos de lenguajes grandes (LLM) a menudo utilizan una función lineal muy simple para recuperar y decodificar datos almacenados. Además, el modelo utiliza la misma función de decodificación para tipos similares de hechos. Las funciones lineales, ecuaciones con solo dos variables y sin exponentes, capturan la relación directa y recta entre dos variables.
Los investigadores demostraron que, al identificar funciones lineales para diferentes hechos, pueden probar el modelo para ver qué sabe sobre nuevos temas y en qué parte del modelo se almacena ese conocimiento.
Utilizando una técnica que desarrollaron para estimar estas funciones simples, los investigadores descubrieron que incluso cuando un modelo responde incorrectamente a una pregunta, a menudo ha almacenado la información correcta. En el futuro, los científicos podrían utilizar este enfoque para encontrar y corregir falsedades dentro del modelo, lo que podría reducir la tendencia de un modelo a dar a veces respuestas incorrectas o sin sentido.
“Aunque estos modelos son funciones no lineales realmente complicadas que se entrenan con una gran cantidad de datos y son muy difíciles de entender, a veces hay mecanismos realmente simples trabajando dentro de ellos. Este es un ejemplo de eso”, dice Evan Hernández, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y coautor principal de un artículo que detalla estos hallazgos.
Hernández escribió el artículo con el coautor principal Arnab Sharma, estudiante de posgrado en ciencias de la computación en la Universidad Northeastern; su asesor, Jacob Andreas, profesor asociado de EECS y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); el autor principal David Bau, profesor asistente de informática en Northeastern; y otros en el MIT, la Universidad de Harvard y el Instituto Israelí de Tecnología. La investigación se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje.
Encontrar hechos
La mayoría de los grandes modelos de lenguaje, también llamados modelos transformadores, son redes neuronales . Basadas libremente en el cerebro humano, las redes neuronales contienen miles de millones de nodos o neuronas interconectados que se agrupan en muchas capas y que codifican y procesan datos.
Gran parte del conocimiento almacenado en un transformador se puede representar como relaciones que conectan sujetos y objetos. Por ejemplo, “Miles Davis toca la trompeta” es una relación que conecta al sujeto, Miles Davis, con el objeto, la trompeta.
A medida que un transformador adquiere más conocimientos, almacena datos adicionales sobre un tema determinado en múltiples capas. Si un usuario pregunta sobre ese tema, el modelo debe decodificar el hecho más relevante para responder a la consulta.
Si alguien avisa a un transformador diciendo “Miles Davis interpreta el. . .” el modelo debería responder con “trompeta” y no “Illinois” (el estado donde nació Miles Davis).
“En algún lugar del cálculo de la red, tiene que haber un mecanismo que busque el hecho de que Miles Davis toca la trompeta, y luego extraiga esa información y ayude a generar la siguiente palabra. Queríamos entender cuál era ese mecanismo”, dice Hernández.
Los investigadores establecieron una serie de experimentos para probar los LLM y descubrieron que, aunque son extremadamente complejos, los modelos decodifican información relacional utilizando una función lineal simple. Cada función es específica del tipo de hecho que se recupera.
Por ejemplo, el transformador usaría una función de decodificación cada vez que quiera generar el instrumento que toca una persona y una función diferente cada vez que quiera generar el estado en el que nació una persona.
Los investigadores desarrollaron un método para estimar estas funciones simples y luego calcularon funciones para 47 relaciones diferentes, como "capital de un país" y "cantante principal de una banda".
Si bien podría haber un número infinito de relaciones posibles, los investigadores optaron por estudiar este subconjunto específico porque son representativos de los tipos de hechos que se pueden escribir de esta manera.
Probaron cada función cambiando el tema para ver si podían recuperar la información correcta del objeto. Por ejemplo, la función para “capital de un país” debería recuperar Oslo si el tema es Noruega y Londres si el tema es Inglaterra.
El algoritmo recuperó la información correcta en más del 60 por ciento de los casos, lo que demuestra que parte de la información en un transformador se codifica y recupera de esta manera.
“Pero no todo está codificado linealmente. Para algunos hechos, aunque el modelo los conoce y predecirá texto que sea consistente con estos hechos, no podemos encontrar funciones lineales para ellos. Esto sugiere que el modelo está haciendo algo más complejo para almacenar esa información”, afirma.
Visualizando el conocimiento de un modelo
También utilizaron las funciones para determinar lo que un modelo cree que es cierto sobre diferentes temas.
En un experimento, comenzaron con el mensaje "Bill Bradley era" y utilizaron las funciones de decodificación para "practica deportes" y "asistió a la universidad" para ver si el modelo sabía que el senador Bradley era un jugador de baloncesto que asistió a Princeton.
"Podemos demostrar que, aunque el modelo puede optar por centrarse en información diferente cuando produce texto, codifica toda esa información", dice Hernández.
Utilizaron esta técnica de sondeo para producir lo que llaman una “lente de atributos”, una cuadrícula que visualiza dónde se almacena información específica sobre una relación particular dentro de las muchas capas del transformador.
Las lentes de atributos se pueden generar automáticamente, lo que proporciona un método simplificado para ayudar a los investigadores a comprender más sobre un modelo. Esta herramienta de visualización podría permitir a los científicos e ingenieros corregir el conocimiento almacenado y ayudar a evitar que un chatbot de IA proporcione información falsa.
En el futuro, Hernández y sus colaboradores quieren comprender mejor qué sucede en los casos en que los hechos no se almacenan de forma lineal. También les gustaría realizar experimentos con modelos más grandes, así como estudiar la precisión de las funciones de decodificación lineal.
“Este es un trabajo apasionante que revela una pieza faltante en nuestra comprensión de cómo los grandes modelos lingüísticos recuerdan el conocimiento fáctico durante la inferencia. Trabajos anteriores demostraron que los LLM construyen representaciones ricas en información de temas determinados, de los cuales se extraen atributos específicos durante la inferencia. Este trabajo muestra que el complejo cálculo no lineal de LLM para la extracción de atributos se puede aproximar bien con una función lineal simple”, dice Mor Geva Pipek, profesor asistente en la Facultad de Ciencias de la Computación de la Universidad de Tel Aviv, que no participó en este estudio. trabajar.
Esta investigación fue apoyada, en parte, por Open Philanthropy, la Fundación Científica Israelí y una beca para profesores de carrera temprana de la Fundación Azrieli.