Esclareciendo las condiciones bajo las cuales los Modelos de Lenguaje Grandes podrían ser conscientes
Imagen generada por Dall-E
Con una velocidad increíble, los Modelos de Lenguaje Grandes (LLM, por sus siglas en inglés) están transformando muchos aspectos de la sociedad. Esto ha generado inquietud en el público, y el discurso público está lleno de preguntas sobre si los LLM son o podrían ser conscientes. Debido a que existe un desacuerdo generalizado sobre la conciencia entre los científicos, cualquier respuesta concreta que se pudiera ofrecer al público sería polémica. Este artículo ofrece la siguiente mejor opción: trazar la posibilidad de la conciencia en los LLM. Aunque es demasiado pronto para juzgar la posibilidad de la conciencia en los LLM, nuestro mapeo del espacio de posibilidades para ello puede servir como una guía temporal para teorizar al respecto.
Los Modelos de Lenguaje Grande (LLM) son redes neuronales artificiales sofisticadas cuyos pesos están entrenados con cientos de miles de millones de palabras de internet, incluidas conversaciones en lenguaje entre humanos conscientes con "verdadera" agencia. Los usuarios que interactúan con LLM experimentan una fascinante simulación basada en el lenguaje de una interacción en lenguaje natural. Debido a que los LLM han sido entrenados en conversaciones en las que los humanos (reales) describen y expresan de diferentes maneras la peculiar vida interior que asociamos con la experiencia consciente, los LLM son capaces de ofrecer descripciones y expresiones de tal vida interior que son prácticamente indistinguibles de las de los humanos. Para el público, esto ha evidenciado la falta de claridad sobre lo que significa tener agencia y ser consciente. En el discurso público sobre los LLM, una incertidumbre sobre si podrían ser conscientes impulsa muchas de las preocupaciones expresadas por políticos, el público en general y personas no especializadas. Esta incertidumbre prospera en parte porque nosotros, como campo científico, aún no entendemos bien la conciencia.
En los estudios interdisciplinarios sobre la conciencia, los investigadores están lejos de alcanzar un consenso sobre cómo explicar teóricamente la conciencia. De hecho, hay un debate extenso y continuo en el campo sobre lo que significan incluso las palabras que usamos para describir y teorizar sobre la conciencia. Por lo tanto, no tenemos una guía teórica sólida para entender si los LLM son o pueden ser conscientes (Aru et al. 2023; Chalmers, 2023b). Varios artículos científicos recientes han asumido que los LLM no son conscientes (Chalmers, 2023a; Colombatto y Fleming, 2023; Dodig-Crnkovic, 2023) y, por lo tanto, podemos concluir que la capacidad de conversar puede ocurrir inconscientemente. Al mismo tiempo, otros, como se mencionó anteriormente, han sugerido lo contrario. Sin embargo, cualquier suposición de este tipo es una elección teórica no respaldada por ninguna evidencia empírica.
Recientemente, se ha sugerido en los medios y en la literatura científica que hay evidencia que sugiere que la conciencia es común, no solo en el dominio biológico, sino en cualquier dominio donde se integra la información (Tononi et al. 2016). Sin embargo, es muy prematuro hacer tal afirmación basada en la ciencia empírica. Esto no solo aplica a la teoría de la información integrada, sino a cualquier teoría contemporánea de la conciencia. Cómo medir la conciencia sigue siendo uno de los problemas no resueltos más destacados (Bayne et al. 2024). Dado que la conciencia parece ser un componente central de la vida humana, tenemos un interés particular en encontrar biomarcadores objetivos y fiables de la conciencia en los humanos (no solo por razones clínicas). En cuanto al tema que nos ocupa, claramente, si solo entendiéramos cómo surge la conciencia en los humanos, sería mucho más fácil determinar qué se necesitaría para que una máquina sea consciente, y si esto es posible en primer lugar. Pero actualmente no sabemos cómo surge la conciencia en los humanos, por lo tanto, este no es un enfoque factible.
Es una intuición fuerte tanto en la ciencia como en el sentido común que ser consciente de algo marca una diferencia cognitiva para el sujeto. Sin embargo, los modelos predominantes en la neurociencia cognitiva no han sido capaces de identificar conceptualmente o empíricamente una función cognitiva particular (o un conjunto de funciones) para la cual la conciencia sea necesaria. Esto también se aplica al lenguaje y a las capacidades lingüísticas. Por lo tanto, en la actualidad, no existe una manera objetiva de determinar si alguna función o acción específica que un LLM pueda realizar está asociada con la conciencia, lo que hace que este enfoque sea inviable (véase también Bayne et al. 2024).
El breve análisis anterior parece mostrar que el debate está estancado. No existe un método empírico disponible para determinar si los LLM son conscientes, y una conclusión teórica sobre el tema se basará en una elección o suposición, por lo tanto, dependiendo de suposiciones arbitrarias o terminando como un argumento circular. El problema es familiar para los investigadores de la conciencia, pero se refleja en debates previos sobre la conciencia en, por ejemplo, insectos, animales, bebés, pacientes no comunicativos en coma o estado vegetativo, e incluso en adultos neurotípicos, como se ejemplifica en el "problema de otras mentes" de la filosofía de la mente.
Si hay un camino a seguir para medir directamente la conciencia, debemos identificar las preguntas que necesitan ser respondidas antes de poder encontrarlo. Por ejemplo, debe determinarse si el correlato central de la conciencia es de naturaleza biológica/estructural o más bien funcional/computacional. Naturalmente, siempre habrá correlatos biológicos y funcionales al mismo tiempo, sin embargo, cualquier teoría debe argumentar que la conciencia existe debido a algo que es de naturaleza biológica o funcional, de modo que otros correlatos son espurios o secundarios. En los últimos años, se ha prestado mucha atención a clasificar los objetivos explicativos y los mecanismos de las teorías existentes en términos varios, pero similares (Doerig et al. 2020; Fahrenfort y van Gaal, 2021; Sattin et al. 2021; Schurger y Graziano, 2022; Signorelli et al. 2021).
Dos de las preguntas importantes que debemos plantear se expresan en la siguiente matriz: La conciencia es realizada por ciertas estructuras biológicas o por ciertas funciones/computaciones, y la conciencia es realizada por fenómenos simples/de bajo nivel o por fenómenos complejos/de alto nivel.
Segmentar el panorama según las distinciones funcional-biológica y simple-compleja nos permite manejar las condiciones bajo las cuales los LLM pueden ser conscientes (ahora o en el futuro). Debido a que esta forma de segmentar el panorama teórico ha reducido las posiciones posibles a una matriz de dos por dos, donde cada espacio predice las perspectivas de la conciencia artificial, permite una mejor (pero aún subdeterminada) generalización que cuando se considera cada teoría de forma aislada. Este enfoque tiene la ventaja de ofrecer un mapeo neutral en cuanto a teoría del espacio de posibilidades para la conciencia en los LLM. Por lo tanto, a continuación, consideraremos brevemente cada una de las dos dimensiones con un poco más de detalle.
La distinción biológico-funcional
Fundamentalmente, la conciencia está asociada con una estructura física o está asociada con una función. Estos dos "tipos" de teorías vienen en muchas versiones, dependiendo de los detalles de a qué se considera que la conciencia es reducible, idéntica o diferente, y si está o no anclada en alguna estructura o función específica.
Los investigadores que asocian la conciencia con estructuras biológicas suelen tener en mente una o más estructuras neuronales. Desde esta perspectiva, un organismo es consciente bajo la condición de que tenga una estructura neuronal específica (fundamento biológico). Este pensamiento es evidente en varias teorías influyentes actuales, por ejemplo, en la teoría de la información integrada, donde la conciencia humana es literalmente idéntica al grupo más complejo de información interconectada en un cerebro (Tononi et al. 2016). Si la conciencia depende de estructuras biológicas, los LLM nunca serán conscientes porque no están instanciados en el material "correcto" (c.f. Searle 1980). Ahora bien, uno podría objetar que si un LLM se instanciara en el material biológico correcto (una computadora biológica del futuro), entonces sería consciente. Esto, sin embargo, es erróneo respecto al punto que estamos planteando aquí. Sí, en tal caso ciertamente sería consciente, pero no sería consciente en virtud de lo que lo convierte en un LLM, sería consciente en virtud del material en el que fue instanciado.
Los investigadores que asocian la conciencia con propiedades funcionales suelen concebir la conciencia como análoga al software informático que necesita algún hardware para ejecutarse (c.f. lo que Chalmers (2011) llama la "tesis de suficiencia computacional"). Desde esta perspectiva, cualquier estructura física (por ejemplo, cerebros o matrices de chips de silicio) con las características necesarias, aún desconocidas, para ejecutar el software "correcto" podrá realizar la conciencia. En consecuencia, si la conciencia depende de características funcionales, los LLM pueden ser conscientes si ejecutan el software "correcto".
La complejidad importa
El otro parámetro de nuestro gráfico determina si la conciencia depende de estructuras o funciones biológicas complejas o si sólo requiere estructuras o funciones simples.
Algunos investigadores proponen que una o unas pocas funciones son capaces de realizar la conciencia. Un ejemplo de ello es la teoría del pensamiento de orden superior, que sostiene que la consciencia solo requiere un pensamiento (a su vez inconsciente) sobre un contenido de primer orden (como un estímulo visual) (Brown et al. 2019). En consecuencia, cualquier sistema con el tipo adecuado de capacidades metacognitivas puede ser consciente. Nada indica que los LLM tengan metacognición real. En principio, sin embargo, nada impediría que un sistema artificial tuviera estados similares al pensamiento de orden superior, por lo que la consciencia en sistemas artificiales no se descarta desde esta perspectiva.
Si la consciencia se asocia correctamente con cualquier tipo de función, es posible que los LLM ya estén cerca de ser conscientes, y es probable que los desarrollos futuros conduzcan a sistemas artificiales conscientes. Si la consciencia se asocia a funciones extremadamente simples, sin saberlo, es posible que hayamos creado consciencia en sistemas artificiales mucho antes de que aparecieran los LLM.
El aspecto de la complejidad es diferente si la consciencia está asociada a estructuras biológicas. Desde este punto de vista, nuestros LLM actuales nunca serán conscientes porque no están instanciados en el material "adecuado". Sin embargo, es posible que el material "adecuado" (por ejemplo, el cerebro) no sólo exista en los seres humanos,
Si la consciencia se asocia correctamente con cualquier tipo de función, es posible que los LLM ya estén cerca de ser conscientes, y es probable que futuros desarrollos conduzcan a sistemas artificiales conscientes. Si la consciencia se asocia a funciones extremadamente simples, sin saberlo, es posible que hayamos creado consciencia en sistemas artificiales mucho antes de que aparecieran los LLM.
El aspecto de la complejidad es diferente si la consciencia está asociada a estructuras biológicas. Desde este punto de vista, nuestros LLM actuales nunca serán conscientes porque no están instanciados en el material "adecuado". Sin embargo, es posible que el material "adecuado" (por ejemplo, el cerebro) no sólo exista en los seres humanos, por lo que la conciencia puede estar muy extendida en la naturaleza. Desde este punto de vista, el aspecto de la complejidad se relaciona con la extensión real de la conciencia. Si la estructura debe ser muy compleja, menos especies serán conscientes, si la estructura es muy simple, la conciencia será abundante en los seres biológicos (Wiese y Friston, 2021). Un ejemplo de lo primero sería una teoría que plantea la necesidad de computación cuántica a exaescala a temperatura ambiente en combinación con propiedades específicas de las neuronas corticales y las membranas neuronales (Stoll, 2022). Un ejemplo de lo segundo sería la capacidad de integrar información (Tononi, 2005).
Conclusiones
Aunque lo anterior presenta las opciones disponibles de un panorama teórico muy complicado y diverso en una matriz simple, no sugerimos que responder a la pregunta sea sencillo. Nos queda un largo y difícil camino por recorrer. Sin embargo, debe quedar claro que es prematuro sacar conclusiones sobre la posibilidad de la conciencia LLM. Es más, aunque nuestra capacidad para llegar a una conclusión definitiva puede estar todavía muy lejos en el futuro, es posible que podamos descartar algunas posiciones de la matriz antes de eso (si los datos entrantes y futuros son serendípicos). En este sentido, la matriz puede servir para comprender lo mejor que tenemos hasta ahora y puede ser útil para analizar los datos entrantes. No obstante, hasta que no se realicen progresos serios, y mientras las teorías arraigadas en las cuatro posiciones de la matriz puedan explicar todos o la mayoría de los datos científicos disponibles (para un debate, véase Butlin et al. 2023), será una empresa acientífica sacar conclusiones sobre la consciencia en los LLM o en cualquier otro sistema artificial. En palabras de Uriah Kriegel: "Cuando dos teorías son perfectamente equivalentes empíricamente, hay un sentido importante en el que elegir entre ellas sobre la base de virtudes superempíricas es una empresa no científica". (Kriegel, 2020, p. 273).
Traducido del inglés mediante GPT-4 (en parte) y mediante DeepL.