Proteínas y lenguaje natural: La inteligencia artificial permite el diseño de nuevas proteínas
La Prof. Dra. Birte Höcker en un laboratorio de bioquímica en el campus de Bayreuth. Crédito: UBT / Christian Wißler
La inteligencia artificial (IA) ha creado nuevas posibilidades para el diseño de proteínas a medida para resolver desde problemas médicos e incluso ecológicos. Un equipo de investigación de la Universidad de Bayreuth, en Baviera, dirigido por la Prof. Dra. Birte Höcker ha aplicado con éxito un modelo de procesamiento del lenguaje natural basado en el ordenador a la investigación de proteínas. De forma totalmente independiente, el modelo ProtGPT2 diseña nuevas proteínas capaces de plegarse de forma estable y que podrían asumir funciones definidas en contextos moleculares más amplios. El modelo y su potencial se detallan científicamente en Nature Communications.
Las lenguas naturales y las proteínas tienen en realidad una estructura similar. Los aminoácidos se organizan en multitud de combinaciones para formar estructuras que tienen funciones específicas en el organismo vivo, de forma similar a como las palabras forman frases en diferentes combinaciones que expresan determinados hechos.
Por ello, en los últimos años se han desarrollado numerosos enfoques para utilizar los principios y procesos que controlan el procesamiento del lenguaje natural asistido por ordenador en la investigación de las proteínas.
"El procesamiento del lenguaje natural ha progresado extraordinariamente gracias a las nuevas tecnologías de IA. Hoy en día, los modelos de procesamiento del lenguaje permiten a las máquinas no sólo comprender frases significativas, sino también generarlas ellas mismas. Ese modelo fue el punto de partida de nuestra investigación. Con información detallada sobre unos 50 millones de secuencias de proteínas naturales, mi colega Noelia Ferruz entrenó el modelo y le permitió generar secuencias de proteínas por sí mismo. Ahora entiende el lenguaje de las proteínas y puede utilizarlo de forma creativa. Hemos comprobado que estos diseños creativos siguen los principios básicos de las proteínas naturales", afirma la profesora Dra. Birte Höcker, directora del Grupo de Diseño de Proteínas de la Universidad de Bayreuth.
El modelo de procesamiento del lenguaje trasladado a la evolución de las proteínas se llama "ProtGPT2". Ahora puede utilizarse para diseñar proteínas que adoptan estructuras estables mediante el plegado y son permanentemente funcionales en este estado. Además, los bioquímicos de Bayreuth han descubierto, a través de complejas investigaciones, que el modelo puede incluso crear proteínas que no se dan en la naturaleza y que posiblemente nunca han existido en la historia de la evolución. Estos hallazgos arrojan luz sobre el inconmensurable mundo de las proteínas posibles y abren una puerta al diseño de las mismas de formas novedosas e inexploradas. Hay una ventaja más: La mayoría de las proteínas que se han diseñado de novo hasta ahora tienen estructuras idealizadas. Antes de que esas estructuras puedan tener una aplicación potencial, suelen tener que pasar por un elaborado proceso de funcionalización -por ejemplo, insertando extensiones y cavidades- para que puedan interactuar con su entorno y asumir funciones definidas con precisión en contextos de sistemas más amplios. ProtGPT2, en cambio, genera proteínas que tienen esas estructuras diferenciadas de forma innata y que, por tanto, ya son operativas en sus respectivos entornos.
"Nuestro nuevo modelo es otra impresionante demostración de la afinidad sistémica del diseño de proteínas y el procesamiento del lenguaje natural. La inteligencia artificial abre posibilidades muy interesantes y prometedoras de utilizar métodos de procesamiento del lenguaje para la producción de proteínas personalizadas. En la Universidad de Bayreuth esperamos contribuir de este modo al desarrollo de soluciones innovadoras para problemas biomédicos, farmacéuticos y ecológicos", afirma la profesora Dra. Birte Höcker.