OpenAI a annoncé jeudi un nouveau modèle d'IA appelé CriticGPT. Ce modèle est spécifiquement conçu pour détecter les bogues dans le code généré par ChatGPT , qui devrait agir comme un assistant d'IA pour améliorer la surveillance humaine des systèmes d'IA et améliorer l'alignement entre le comportement de l'IA et les attentes humaines.
Le développement de CriticGPT utilise une technique appelée Reinforcement Learning from Human Feedback (RLHF), qui aide les évaluateurs humains à rendre les résultats des grands modèles de langage (LLM) plus précis.
Dans un document de recherche intitulé « LLM Critics Help Catch LLM Bugs », OpenAI présente les résultats concernant la capacité de détection de bogues de CriticGPT.
Les chercheurs ont formé CriticGPT sur un ensemble de données d'échantillons de code contenant des bogues intentionnellement insérés, lui permettant d'apprendre à identifier et à signaler diverses erreurs de codage. Les résultats de l'étude ont montré que les annotateurs préféraient les critiques de CriticGPT aux critiques humaines dans 63 % des cas impliquant des erreurs LLM naturelles.
De plus, les équipes utilisant CriticGPT ont pu rédiger des critiques plus complètes tout en réduisant les taux de confabulation par rapport aux critiques basées uniquement sur l'IA.
Application de CriticGPT au-delà de la révision du code
Bien que CriticGPT ait été principalement développé pour la révision du code, les chercheurs ont découvert que ses capacités vont au-delà de la simple identification des erreurs de codage. Ils ont testé CriticGPT sur un sous-ensemble de données de formation ChatGPT que les annotateurs humains avaient précédemment identifiées comme parfaites.
Étonnamment, CriticGPT a identifié des erreurs dans 24 % de ces cas, qui ont ensuite été vérifiées par des évaluateurs humains. Cela démontre le potentiel du modèle à se généraliser aux tâches non codées et met en valeur sa capacité à détecter les erreurs que l'évaluation humaine pourrait négliger.
Cependant, il est important de noter que CriticGPT présente certaines limites. Le modèle a été formé sur des réponses ChatGPT relativement courtes, ce qui pourrait ne pas le préparer pleinement à l'évaluation de tâches plus longues et plus complexes que les futurs systèmes d'IA pourraient accomplir.
De plus, même si CriticGPT réduit les confabulations, il ne les supprime pas complètement et les formateurs humains peuvent toujours commettre des erreurs d'étiquetage en raison de ces résultats incorrects.
Défis rencontrés par les équipes de formation CriticGPT
À mesure que les modèles de langage tels que ChatGPT deviennent plus avancés et génèrent des réponses complexes, il devient de plus en plus difficile pour les formateurs humains de juger avec précision la qualité des résultats.
Cela pose une limitation fondamentale à la technique RLHF, car les modèles dépassent les connaissances et les capacités des examinateurs humains.
CriticGPT relève ce défi en aidant les formateurs humains à prendre de meilleurs jugements pendant le processus de formation. En tirant parti de l'IA pour évaluer et critiquer les résultats de ChatGPT , les formateurs humains peuvent bénéficier de conseils améliorés pour aligner le modèle linguistique sur les objectifs humains.
CriticGPT a démontré des capacités de détection de bogues supérieures à celles des évaluateurs humains. Il a détecté environ 85 % des bogues, tandis que les évaluateurs humains n’en ont détecté que 25 %.
Pour former CriticGPT, des formateurs humains ont délibérément inséré des bugs dans les extraits de code générés par ChatGPT . Cette méthodologie a permis aux chercheurs d'évaluer avec précision les performances de CriticGPT.
Cependant, il est important de noter que des recherches supplémentaires sont nécessaires pour appliquer CriticGPT à des tâches au-delà de la génération de code et pour gérer des tâches plus complexes.
La formation actuelle de CriticGPT s'est concentrée sur les extraits de code court générés par ChatGPT . OpenAI reconnaît la nécessité de développer de nouvelles méthodes pour former CriticGPT à gérer efficacement des tâches plus longues et plus complexes.
De plus, CriticGPT, étant lui-même un modèle d’IA, est sensible à des problèmes tels que les hallucinations, qui peuvent avoir des conséquences potentielles s’ils ne sont pas correctement traités.