¿Son realmente inteligentes los modelos de lenguaje?
Imaginemos que tenemos un amigo, su nombre es Gaspar Pérez Torres (GPT), fanático de Einstein y con una excelente memoria. En una reunión, Gaspar recita a la perfección los trabajos de este famoso erudito, impresionando a todo quien lo escuche. Sin embargo, nosotros sabemos que las habilidades de Gaspar son solo memorizar y recitar.
El caso de Gaspar es muy similar a las preguntas que se plantean actualmente sobre los modelos de lenguaje, como GPT-4 o Gemini: ¿Son realmente inteligentes o solo memorizan y recitan? ¿Estamos ante una tecnología que competirá con la inteligencia humana?
Aparente inteligencia
Nuestro amigo Gaspar podría sorprender en una conferencia científica, recitando investigaciones de Einstein y respondiendo preguntas con precisión. Los asistentes y, expertos científicos, podrían pensar que es un genio, pero solo está recitando información memorizada. Si continuamos con este hilo de pensamiento y lo extrapolamos a la inteligencia artificial, entonces los modelos de lenguaje, entrenados con una gran cantidad de datos, pueden parecer inteligentes al responder todas las preguntas que les hacemos. Pero, en realidad, solo utilizan patrones y datos almacenados durante su entrenamiento.
¿Es inteligente GPT?
Como sabemos, los LLM (modelos de lenguaje de gran tamaño) utilizan su memoria para resolver problemas, similar a cómo los humanos usamos patrones aprendidos y a cómo Gaspar puede recitar todos los papeles de Einstein y dejar a todos asombrados. Esto puede considerarse inteligencia, hasta cierto punto. Sin embargo, los humanos, además de memorizar y aprender patrones, también razonan. El razonamiento es una habilidad que permite la adaptación a nuevas situaciones usando la lógica, la inferencia y la interpretación. Algunos estudios demuestran que los LLM, incluyendo el GPT-4o, no son capaces de razonar ni planificar a nivel humano. Es decir, cuando enfrentan tareas nuevas, su desempeño cae significativamente.
Razonamiento
El razonamiento humano permite la adaptación a nuevas situaciones y escenarios, de manera creativa y flexible. Los LLM pueden dar la ilusión de razonar porque han memorizado muchos ejemplos de razonamiento, pero realmente no comprenden ni razonan. En los millones de párrafos de texto utilizados para entrenar un LLM, hay suficientes muestras o ejemplos de razonamiento como para que, ante ciertos problemas de lógica o planificación, el modelo pueda recurrir a un esquema de razonamiento “memorizado”. Es decir, se guarda una especie de receta lógica en la memoria. Pero, “aprender a razonar” a través de miles de ejemplos, es decir, razonar de memoria, no es lo mismo que lo que hacemos los humanos cuando razonamos.
Hype, GPT5 y el futuro de la inteligencia artificial
¿Importa tanto si los LLM actuales representan sólo parcialmente el espectro de inteligencia humana? Depende de a quién le preguntamos. Hoy estamos ante una ola de Hype extrema en lo que respecta a inteligencia artificial. Seguramente que parte de esto se debe a una sobreestimación de las capacidades actuales que tienen los LLM, que como hemos explicado, aparentan ser más inteligentes y capaces de lo que realmente son. En esto las redes sociales y la viralización del tema no han ayudado mucho. Para los inversionistas y empresas que pueden obtener una ganancia de esto, las altas expectativas y las exageraciones pueden ayudar al negocio, atrayendo más inversión e interés general de los usuarios. Ahora bien, para ser justos una gran parte de Hype también es real y justificable. Si miramos la capacidad de los LLM para memorizar y asociar información en su propio mérito, esta funcionalidad ya es revolucionaria por sí sola. Los casos de uso ya desarrollados parecen ser sacados de una película de ciencia ficción, y presentan un potencial gigantesco para todos los ámbitos de la actividad humana. Es decir, la utilidad y valor de los LLM no está en discusión.
Sin embargo, desde el punto de vista científico (la comunidad que desea avanzar, para acercarnos a lo que es la inteligencia humana), varios líderes de opinión aseguran que no será posible avanzar mucho más con la actual arquitectura de Transformers. Por ejemplo, para Francois Chollet, investigador de IA en Google, los modelos como GPT 4 estarían llegando a un límite y no importa mucho si para el nuevo modelo GPT 5 se sigue invirtiendo en tamaño y/o data de entrenamiento. Los modelos no serán más inteligentes ni capaces de razonar por ser más grandes, solo ganarán más memoria. Por otro lado, Yann LeCun, uno de los líderes de opinión en IA e investigador de Meta, les aconseja a los jóvenes no seguir investigando LLMs, y en cambio, recomienda buscar nuevas fronteras de investigación que ayuden a destrabar las limitaciones actuales. Opiniones más polémicas hablan de que el Hype de los LLM ha capturado tanto la atención de empresas, academia y público general, que han “consumido todo el oxígeno” disponible, perjudicando a otras ramas de investigación que podrían finalmente llevarnos a la Inteligencia Artificial General o AGI.
Finalmente, como última reflexión, mientras esperamos la próxima entrega de OpenAI con GPT-5 o de una nueva arquitectura revolucionaria de modelos, es fundamental que desde ya miremos con detención nuestros propios trabajos y actividades. Que a los modelos aún les falte una pieza importante no significa que podemos menospreciar su capacidad transformadora, según lo que ya pueden ofrecer. Podríamos decir que los LLM tienen una fracción de nuestras habilidades mentales, pero ya con esa fracción son capaces de superarnos en múltiples ámbitos. Esto significa que nuestros roles y nuestros trabajos van a evolucionar inevitablemente. ¿Cuánto de nuestro día a día corresponde a tareas más bien mecánicas y repetitivas? ¿Qué porcentaje de nuestra jornada la dedicamos a aplicar un “programa” o rutina aprendida que está en nuestra memoria? Las respuestas a estas preguntas nos van a ir anticipando las oportunidades (y riesgos) que podemos tener en un futuro próximo.