Dans le cadre d'un développement révolutionnaire, des chercheurs de l'Université d'Oxford ont réalisé des progrès cruciaux dans l'identification et la prévention du phénomène d'hallucination dans les grands modèles de langage (LLM) utilisés dans la recherche sur l'intelligence artificielle (IA).
Les chercheurs ont mis au point une nouvelle méthode pour détecter les cas où les LLM sont susceptibles d'« halluciner » ou d'inventer des faits apparemment plausibles mais imaginaires.
Une explication plus simple pourrait être qu'un LLM n'identifie pas ce qui définit une bonne réponse mais se sent obligé d'en proposer une, ce qui l'amène à fabriquer des informations, un comportement connu sous le nom de « confabulation ».
Les résultats de cette recherche pourraient s’avérer utiles, en particulier dans des domaines tels que les réponses aux questions juridiques et médicales, où les inexactitudes peuvent entraîner de graves conséquences.
Méthodologie derrière la détection des confabulations LLM
La méthodologie développée par l'équipe de recherche est fortement basée sur les statistiques et se concentre sur l'estimation de l'incertitude au niveau de la signification plutôt que sur des séquences de mots individuelles.
La méthode utilise l'entropie sémantique, qui mesure l'ampleur de la variation entre plusieurs sorties, pour calculer l'incertitude des réponses LLM.
En traduisant les probabilités produites par les LLM en probabilités sur le sens, les chercheurs ont pu identifier les cas où les LLM n'étaient pas sûrs de la signification réelle de leurs réponses, et pas seulement de la formulation.
Au cours de leurs expériences, la nouvelle méthode a systématiquement surpassé les approches précédentes en matière de détection des confabulations.
L'équipe de recherche a testé la méthode sur six LLM open source, y compris des modèles bien connus tels que GPT-4 et LLaMA 2, en utilisant divers ensembles de données allant des recherches Google aux questions biomédicales techniques et aux problèmes de mots mathématiques. La méthode a même réussi à identifier de fausses allégations spécifiques dans de courtes biographies générées par ChatGPT .
L’un des principaux avantages de cette technique est que, contrairement aux approches précédentes qui nécessitaient des données spécifiques à une tâche, cette méthode fonctionne sur divers ensembles de données et tâches sans connaissances préalables. Sa généralisation robuste à de nouvelles tâches le rend précieux pour garantir la précision et la fiabilité dans un large éventail d'applications.
Bien que la méthode de détection résolve des problèmes de fiabilité spécifiques liés aux confabulations, d’autres défis nous attendent. Les erreurs constantes commises par les LLM sont un domaine qui nécessite une attention particulière.
Les échecs les plus préjudiciables de l’IA se produisent lorsqu’un système produit systématiquement des résultats incorrects mais sûrs et systématiques. Les chercheurs reconnaissent qu’il reste encore beaucoup de travail à faire à cet égard.