Algoritmos para estudiar el lenguaje ayudan a predecir mutaciones del coronavirus
Imágenes de proteínas de virus de la gripe, VIH y SARS-CoV-2 con zonas coloreadas según su potencial para mutar y ‘escapar’ de la respuesta inmunitaria. / B. Hie et al.-MIT/Science
En 1950 Alan Turing, uno de los padres de la computación, predijo que las máquinas llegarían a competir con los hombres en "campos intelectuales" y planteó que incluso podrían aprender a entender y hablar inglés. Es un objetivo muy ambicioso, porque aunque las reglas gramaticales facilitan la construcción de oraciones, es muy difícil que logren inferir los significados.
En el lenguaje natural humano hay muchas formas de expresar la misma idea y a menudo las palabras usadas en un mismo contexto tienen significados parecidos. Sin embargo, pequeñas variaciones de letras pueden cambiar totalmente el sentido de una frase.
Para enfrentarse a estos retos y entrenar a las computadoras, los científicos han desarrollado herramientas de procesamiento del lenguaje natural basadas en el aprendizaje automático, y ahora, ingenieros del Instituto Tecnológico de Massachusetts (MIT, en EE UU) se han inspirado en ellas para aplicarlas en un campo totalmente diferente: aprender cómo escapan los virus a las defensas de nuestro organismo.
Basándose en cómo utilizamos las palabras, los investigadores presentan esta semana en la revista Science un nuevo método para identificar y predecir mutaciones (variaciones en la secuencia de aminoácidos de las proteínas) que permiten a los virus escapar de la inmunidad humana y las vacunas. De esta forma se podrían evitar o reducir las costosas técnicas experimentales que se usan actualmente con el mismo objetivo.
Consecuencias de cambiar una letra
Uno de los autores, Bryan Bryson, pone un ejemplo linguístico: "Consideremos la frase en inglés The boy pats the dog (el chico da palmaditas al perro). Con un único cambio en una letra podemos seguir preservando la gramática y la semántica: The boy pets the dog (el chico acaricia al perro), pero también perder la corrección gramatical: The boy patx the dog (patx no existe)".
"Pero si, cambiando también solo un carácter, queremos que siga el conjunto de reglas del idioma inglés alterando sustancialmente el significado, podemos decir: The boy eats the dog (el chico se come al perro)". Nada que ver con las frases anteriores.
De la misma manera, los autores han descubierto que los virus pueden escapar a la respuesta inmune mediante mutaciones que conservan la 'gramática o sintaxis' biológica que gobierna la infectividad viral, pero alterando la 'semántica' o significado de una secuencia proteica para que no sea reconocida por los anticuerpos y poder infectar a las células.
Esta capacidad de los virus representa un desafío importante en el desarrollo de vacunas y antivirales, particularmente en la creación de una universal contra la gripe, así como terapias efectivas para el VIH. En la pandemia de covid-19, este 'escape viral' también se ha convertido en una preocupación urgente a la hora de buscar soluciones frente al coronavirus.
"Usando datos públicos (secuencias víricas en bruto sin procesar), demostramos que cuando en el modelo optimizamos un cambio semántico alto manteniendo alta la gramática, especialmente para el virus de la gripe, podemos identificar mutaciones 'enriquecidas' para ese escape viral", comenta Bryson.
"Lo que mostramos en el artículo –continúa–, es que podemos localizar regiones o dominios que son más o menos propensas a escapar. Por ejemplo, mostramos que la 'cabeza' de la proteína hemaglutinina (HA) del virus de la gripe es más propensa a hacerlo que el 'tallo', y esto coincide con lo que los investigadores de la vacuna contra esa enfermedad han visto después de muchos ensayos".
Además de en proteínas del virus de la gripe, los resultados del modelo permitieron predecir con precisión mutaciones y regiones asociadas al escape inmune del virus VIH que causa el sida y el coronavirus responsable de la pandemia de covid-19.
"Para la proteína Spike del SARS-CoV-2, nuestro modelo predice que dos dominios de la proteína (el de la unión al receptor y el llamado N-terminal) son más propensos a escapar que otra región de la proteína llamada S2", explica Bryson, "y podemos utilizar esta información para diseñar experimentos adicionales en el laboratorio y explorar a qué regiones proteicas se unen los anticuerpos terapéuticos o los generados por la vacuna".
"La importancia de todo esto es que cuando estás diseñando un nuevo antiviral o desarrollando una vacuna, es posible que desees apuntar a zonas que son menos propensas a escapar, ya que esas regiones serán más estables a medida que pase el tiempo", concluye el investigador del MIT.