Cientistas desenvolvem método para detectar grandes modelos de linguagem “alucinantes” em pesquisas de IA

Num desenvolvimento inovador, investigadores da Universidade de Oxford fizeram progressos cruciais na identificação e prevenção do fenómeno da alucinação em grandes modelos de linguagem (LLMs) utilizados na investigação em inteligência artificial (IA).

Os pesquisadores desenvolveram um novo método para detectar quando os LLMs são propensos a “alucinar” ou inventar fatos que parecem plausíveis, mas imaginários.

Uma explicação mais direta pode ser que um LLM não identifica o que define uma resposta correta, mas se sente obrigado a oferecer uma, levando-o a fabricar informações, um comportamento conhecido como “confabulação”.

Os resultados desta investigação podem ser úteis, especialmente em áreas como a resposta a perguntas jurídicas e médicas, onde imprecisões podem levar a consequências graves.

Metodologia por trás da detecção de confabulações LLM

A metodologia desenvolvida pela equipa de investigação é fortemente baseada em estatísticas e centra-se na estimativa da incerteza ao nível do significado, em vez de sequências de palavras individuais.

O método utiliza entropia semântica, que mede a quantidade de variação entre múltiplos resultados, para calcular a incerteza nas respostas LLM.

Ao traduzir as probabilidades produzidas pelos LLMs em probabilidades sobre significados, os investigadores foram capazes de identificar casos em que os LLMs estavam incertos sobre o significado real das suas respostas, e não apenas sobre a fraseologia.

Durante seus experimentos, o novo método superou consistentemente as abordagens anteriores na detecção de confabulações.

A equipe de pesquisa testou o método em seis LLMs de código aberto, incluindo modelos bem conhecidos como GPT-4 e LLaMA 2, usando diversos conjuntos de dados que vão desde pesquisas Google até questões técnicas biomédicas e problemas matemáticos de palavras. O método até identificou com sucesso alegações falsas específicas em pequenas biografias geradas pelo ChatGPT .

Uma grande vantagem desta técnica é que, ao contrário das abordagens anteriores que exigiam dados específicos da tarefa, este método opera em vários conjuntos de dados e tarefas sem conhecimento prévio. Sua generalização robusta para novas tarefas o torna valioso para garantir precisão e confiabilidade em uma ampla gama de aplicações.

Embora o método de detecção resolva problemas específicos de confiabilidade relacionados às confabulações, mais desafios estão por vir. Erros consistentes cometidos pelos LLMs são uma área que requer mais atenção.

As falhas mais prejudiciais da IA ocorrem quando um sistema produz consistentemente resultados incorretos, mas confiáveis e sistemáticos. Os pesquisadores reconhecem que ainda há muito trabalho a ser feito nesse sentido.