twitter account

Investigadores del MIT usan grandes modelos de lenguaje para detectar problemas en sistemas complejos

19/08/2024
Mónica González

Identificar una turbina defectuosa en un parque eólico, que puede implicar observar cientos de señales y millones de puntos de datos, es como buscar una aguja en un pajar.

Los ingenieros suelen simplificar este complejo problema mediante el uso de modelos de aprendizaje profundo que pueden detectar anomalías en mediciones repetidas tomadas por cada turbina, conocidas como datos de series de tiempo.

Pero con cientos de turbinas eólicas que registran docenas de señales cada hora, entrenar un modelo de aprendizaje profundo para analizar datos de series temporales es costoso y engorroso. Esto se complica por el hecho de que es posible que sea necesario volver a entrenar el modelo después de su implementación y que los operadores de parques eólicos pueden carecer de las habilidades necesarias de aprendizaje automático.

En un nuevo estudio, investigadores del MIT descubrieron que los modelos de lenguaje grande (LLM) tienen el potencial de ser detectores de anomalías más eficaces para datos de series temporales. Es importante destacar que estos modelos previamente entrenados se pueden implementar de inmediato.

Los investigadores desarrollaron un marco, llamado SigLLM, que incluye un componente que convierte datos de series de tiempo en entradas basadas en texto que un LLM puede procesar. El usuario puede alimentar estos datos generados al modelo y pedirle que comience a detectar anomalías. LLM también se puede utilizar para predecir puntos de datos de series temporales futuras como parte de un proceso de detección de anomalías.

Aunque los LLM no pudieron superar a los modelos de aprendizaje profundo de última generación en la detección de anomalías, funcionaron tan bien como otros métodos de IA. Si los investigadores pueden mejorar el rendimiento de los LLM, el marco podría ayudar a los técnicos a identificar problemas potenciales antes de que ocurran en dispositivos como maquinaria pesada o satélites, sin necesidad de costosos modelos de aprendizaje profundo.

“Dado que esta es sólo la primera iteración, no esperábamos llegar allí la primera vez, pero estos resultados muestran que existe una oportunidad de aprovechar el LLM para tareas complejas de detección de anomalías”, afirma Sarah Alnghamish, ingeniera eléctrica. y especialización en informática. Estudiante de posgrado en Ciencias (EECS) y autor principal de un artículo sobre SigLLM.

Sus coautores incluyen a Linh Nguyen, estudiante de posgrado de EECS; Laure Berti-Equille, directora de investigación del Instituto Nacional de Investigación para el Desarrollo Sostenible de Francia; y el autor principal Kalyan Veeramachani, científico investigador principal del Laboratorio de Sistemas de Información y Decisión. La investigación se presentará en la Conferencia IEEE sobre ciencia de datos y análisis avanzado.

Una solución lista para usar

Los modelos de lenguaje grande son automáticamente regresivos, lo que significa que pueden comprender que los nuevos valores en datos secuenciales dependen de los valores anteriores. Por ejemplo, modelos como GPT-4 pueden predecir la siguiente palabra de una oración utilizando las palabras que la preceden.

Dado que los datos de series temporales son secuenciales, los investigadores pensaron que la naturaleza autorregresiva de los LLM podría hacerlos adecuados para detectar anomalías en este tipo de datos.

Sin embargo, querían desarrollar una técnica que evitara el ajuste fino, el proceso de reentrenamiento de los LLM de propósito general en una pequeña cantidad de datos específicos de la tarea para que los ingenieros sean competentes en una tarea. En cambio, los investigadores implementan un LLM listo para usar, sin pasos de capacitación adicionales.

Pero antes de poder implementarlo, tuvieron que convertir los datos de series temporales en entradas basadas en texto que el modelo de lenguaje pudiera manejar.

Lo lograron a través de una serie de transformaciones que capturan las partes más significativas de la serie temporal y al mismo tiempo representan los datos con una pequeña cantidad de tokens. Los tokens son la información básica para LLM y más tokens requieren más cálculos.

“Si no sigues estos pasos con mucho cuidado, puedes cortar partes de tus datos que no importan y perder esa información”, dice Alnegheimish.

Una vez que descubrieron cómo transformar los datos de las series temporales, los investigadores desarrollaron dos métodos de detección de anomalías.

Métodos de detección de anomalías.

En primer lugar, lo que ellos llaman un Prompter, introducen los datos generados en el modelo y le solicitan que detecte valores atípicos.

Alnegheimish añade: “Tuvimos que iterar varias veces para encontrar el indicador correcto para una serie temporal determinada. No es fácil entender cómo estos LLM digieren y procesan los datos”.

Para el segundo enfoque, llamado detector, utilizan LLM como predictor para predecir el siguiente valor de la serie temporal. Los investigadores comparan el valor previsto con el valor real. Una gran discrepancia sugiere que el valor real probablemente sea una anomalía.

Junto con el detector, el LLM formará parte de un proceso de detección de anomalías, mientras que el apuntador completará la tarea por sí solo. En la práctica, Detector superó a Prompter, generando muchos falsos positivos.

“Creo que, con el enfoque más rápido, le estábamos pidiendo al LLM que pasara por demasiados obstáculos. Le estábamos dando un problema difícil de resolver”, dice Weeramacheni.

Cuando compararon los dos métodos con las técnicas existentes, el detector superó a los modelos de IA basados ​​en transformadores en siete de 11 conjuntos de datos, a pesar de que LLM no requirió entrenamiento ni ajuste.

En el futuro, un LLM también podrá proporcionar explicaciones en lenguaje sencillo con sus predicciones, de modo que un operador pueda comprender por qué un LLM identificó un punto de datos particular como una anomalía.

Sin embargo, los modelos de aprendizaje profundo de última generación superaron a los LLM por un amplio margen, lo que indica que todavía queda trabajo por hacer antes de que los LLM puedan usarse para detectar anomalías.

“¿Qué se necesita para llegar al punto en el que funcione tan bien como los modelos de última generación? Esa es la pregunta del millón de dólares que nos plantea en este momento. Un detector de anomalías basado en LLM es uno de esos esfuerzos. un cambio de juego que debemos justificar, dice Veeramachni.

En el futuro, los investigadores quieren ver si el ajuste puede mejorar el rendimiento, aunque esto requeriría tiempo de capacitación, costos y experiencia adicionales.

Sus enfoques de LLM también tardan entre 30 minutos y dos horas en generar resultados, por lo que aumentar la velocidad es un área importante de trabajo futuro. Los investigadores también quieren investigar los LLM para comprender cómo detectan anomalías, con la esperanza de encontrar formas de mejorar su desempeño.

“Cuando se trata de tareas complejas como la detección de anomalías en series temporales, los LLM son realmente un competidor. Quizás otras tareas complejas también puedan resolverse con los LLM”. Dicen los alnegheimianos.

Esta investigación contó con el apoyo de SES SA, Iberdrola y ScottishPower Renewables, y Hyundai Motor Company.