Los científicos desarrollan un método para detectar modelos de lenguaje grandes 'alucinantes' en la investigación de IA

En un desarrollo innovador, investigadores de la Universidad de Oxford han logrado avances cruciales en la identificación y prevención del fenómeno de las alucinaciones en modelos de lenguaje grandes (LLM) utilizados en la investigación de inteligencia artificial (IA).

Los investigadores han ideado un método novedoso para detectar cuándo es probable que los LLM "alucinen" o inventen hechos que parezcan plausibles pero imaginarios.

Una explicación más sencilla puede ser que un LLM no identifica lo que define una respuesta correcta, pero se siente obligado a ofrecerla, lo que lo lleva a fabricar información, un comportamiento conocido como "confabulación".

Los resultados de esta investigación podrían resultar útiles, especialmente en campos como el de la respuesta a preguntas jurídicas y médicas, donde las imprecisiones pueden tener consecuencias graves.

Metodología detrás de la detección de confabulaciones LLM

La metodología desarrollada por el equipo de investigación se basa fuertemente en la estadística y se centra en estimar la incertidumbre a nivel de significado en lugar de secuencias de palabras individuales.

El método utiliza entropía semántica, que mide la cantidad de variación entre múltiples resultados, para calcular la incertidumbre en las respuestas de LLM.

Al traducir las probabilidades producidas por los LLM en probabilidades sobre significados, los investigadores pudieron identificar casos en los que los LLM no estaban seguros del significado real de sus respuestas, no solo de la frase.

Durante sus experimentos, el nuevo método superó consistentemente a los enfoques anteriores en la detección de confabulaciones.

El equipo de investigación probó el método en seis LLM de código abierto, incluidos modelos conocidos como GPT-4 y LLaMA 2, utilizando diversos conjuntos de datos que van desde búsquedas Google hasta preguntas técnicas biomédicas y problemas matemáticos. El método incluso identificó con éxito afirmaciones falsas específicas en biografías breves generadas por ChatGPT .

Una ventaja importante de esta técnica es que, a diferencia de enfoques anteriores que requerían datos específicos de la tarea, este método opera en varios conjuntos de datos y tareas sin conocimiento previo. Su sólida generalización a nuevas tareas lo hace valioso para garantizar precisión y confiabilidad en una amplia gama de aplicaciones.

Si bien el método de detección aborda problemas de confiabilidad específicos relacionados con las confabulaciones, aún quedan más desafíos por delante. Los errores constantes cometidos por los LLM son un área que requiere mayor atención.

Las fallas más perjudiciales de la IA ocurren cuando un sistema produce consistentemente resultados incorrectos pero confiables y sistemáticos. Los investigadores reconocen que todavía queda mucho trabajo por hacer en este sentido.

Los científicos desarrollan un método para detectar modelos de lenguaje grandes "alucinantes" en la investigación de IA

Metodología detrás de la detección de confabulaciones LLM