La biología es la próxima frontera de los grandes modelos lingüísticos
Nuestro ADN está formado por miles de millones de combinaciones posibles de solo cuatro elementos
Los grandes modelos lingüísticos como el GPT-4 han arrasado en todo el mundo gracias a su asombroso dominio del lenguaje natural. Sin embargo, la oportunidad más importante a largo plazo para los LLM será un tipo de lenguaje totalmente distinto: el lenguaje de la biología.
De la larga marcha de la investigación en bioquímica, biología molecular y genética durante el último siglo ha surgido un tema sorprendente: resulta que la biología es un sistema descifrable, programable y, en algunos aspectos, incluso digital.
El ADN codifica las instrucciones genéticas completas de todos los organismos vivos de la Tierra utilizando sólo cuatro variables: A (adenina), C (citosina), G (guanina) y T (timina). Compárese con los sistemas informáticos modernos, que utilizan dos variables -0 y 1- para codificar toda la información electrónica digital del mundo. Un sistema es binario y el otro cuaternario, pero los dos tienen un sorprendente grado de solapamiento conceptual; ambos sistemas pueden considerarse digitales.
Por poner otro ejemplo, todas las proteínas de los seres vivos están formadas y definidas por una cadena unidimensional de aminoácidos unidos en un orden determinado. La longitud de las proteínas oscila entre unas pocas docenas y varios miles de aminoácidos, con 20 aminoácidos diferentes entre los que elegir.
Esto también representa un sistema eminentemente computable, que los modelos lingüísticos están bien preparados para aprender.
En palabras del director general y cofundador de DeepMind, Demis Hassabis: "En su nivel más fundamental, creo que la biología puede considerarse un sistema de procesamiento de la información, aunque extraordinariamente complejo y dinámico. Al igual que las matemáticas resultaron ser el lenguaje de descripción adecuado para la física, la biología puede resultar el tipo de régimen perfecto para la aplicación de la IA".
Los grandes modelos lingüísticos alcanzan su máxima potencia cuando pueden alimentarse de grandes volúmenes de datos ricos en señales, infiriendo patrones latentes y estructuras profundas que van mucho más allá de la capacidad de absorción de cualquier ser humano. A partir de ahí, pueden utilizar este intrincado conocimiento de la materia para generar resultados novedosos y asombrosamente sofisticados.
Traducido del inglés mediante la herramienta Deepl