OpenAI ontwikkelt CriticGPT-model om bugs in de code-uitvoer van ChatGPT op te sporen

OpenAI heeft donderdag een nieuw AI-model aangekondigd genaamd CriticGPT. Dit model is specifiek ontworpen om bugs op te sporen in de code die is gegenereerd door ChatGPT , dat naar verwachting zal fungeren als een AI-assistent om het menselijk toezicht op AI-systemen te verbeteren en de afstemming tussen AI-gedrag en menselijke verwachtingen te verbeteren.

De ontwikkeling van CriticGPT maakt gebruik van een techniek genaamd Reinforcement Learning from Human Feedback (RLHF), die menselijke reviewers helpt bij het nauwkeuriger maken van de resultaten van grote taalmodellen (LLM's).

In een onderzoekspaper getiteld "LLM Critics Help Catch LLM Bugs", schetst OpenAI de bevindingen met betrekking tot de bugdetectiemogelijkheden van CriticGPT.

De onderzoekers trainden CriticGPT met een dataset van codevoorbeelden met opzettelijk ingevoegde bugs, waardoor het bedrijf kon leren hoe verschillende codeerfouten konden worden geïdentificeerd en gemarkeerd. De resultaten van het onderzoek toonden aan dat annotators in 63 procent van de gevallen waarbij sprake was van natuurlijk voorkomende LLM-fouten de voorkeur gaven aan de kritiek van CriticGPT boven menselijke kritiek.

Bovendien konden teams die CriticGPT gebruikten uitgebreidere kritieken schrijven en tegelijkertijd het confabulatiepercentage verlagen in vergelijking met kritieken die alleen op AI gebaseerd waren.

Toepassing van CriticGPT Beyond Code Review

Hoewel CriticGPT in de eerste plaats is ontwikkeld voor codebeoordeling, ontdekten de onderzoekers dat de mogelijkheden ervan verder gaan dan alleen het identificeren van codeerfouten. Ze testten CriticGPT op een subset van ChatGPT trainingsgegevens die menselijke annotators eerder als perfect hadden geïdentificeerd.

Verrassend genoeg identificeerde CriticGPT in 24 procent van deze gevallen fouten, die later door menselijke reviewers werden geverifieerd. Dit demonstreert het potentieel van het model om te generaliseren naar niet-codetaken en toont zijn vermogen om fouten op te sporen die menselijke beoordeling over het hoofd zou kunnen zien.

Het is echter belangrijk op te merken dat CriticGPT enkele beperkingen heeft. Het model is getraind op relatief korte ChatGPT antwoorden, waardoor het mogelijk niet volledig is voorbereid op het evalueren van langere en complexere taken die toekomstige AI-systemen zouden kunnen aanpakken.

Bovendien, hoewel CriticGPT confabulaties vermindert, verwijdert het deze niet volledig, en kunnen menselijke trainers nog steeds labelfouten maken als gevolg van deze onjuiste uitvoer.

Uitdagingen waarmee CriticGPT-trainingsteams worden geconfronteerd

Naarmate taalmodellen zoals ChatGPT geavanceerder worden en ingewikkelde en gecompliceerde antwoorden genereren, wordt het voor menselijke trainers steeds moeilijker om de kwaliteit van de resultaten nauwkeurig te beoordelen.

Dit vormt een fundamentele beperking voor de RLHF-techniek, aangezien modellen de kennis en mogelijkheden van menselijke reviewers overtreffen.

CriticGPT pakt deze uitdaging aan door menselijke trainers te helpen betere beoordelingen te maken tijdens het trainingsproces. Door gebruik te maken van AI om de resultaten van ChatGPT te evalueren en te bekritiseren, kunnen menselijke trainers profiteren van verbeterde begeleiding bij het afstemmen van het taalmodel op menselijke doelen.

CriticGPT toonde superieure mogelijkheden om bugs op te vangen in vergelijking met menselijke recensenten. Het ontdekte ongeveer 85 procent van de bugs, terwijl menselijke recensenten slechts 25 procent ontdekten.

Om CriticGPT te trainen, hebben menselijke trainers opzettelijk bugs ingevoegd in de codefragmenten die door ChatGPT zijn gegenereerd. Dankzij deze methodologie konden de onderzoekers de prestaties van CriticGPT nauwkeurig evalueren.

Het is echter belangrijk op te merken dat er meer onderzoek nodig is om CriticGPT toe te passen op taken die verder gaan dan het genereren van code en om complexere taken uit te voeren.

De huidige training van CriticGPT was gericht op korte codefragmenten gegenereerd door ChatGPT . OpenAI erkent de noodzaak om nieuwe methoden te ontwikkelen om CriticGPT te trainen om langere en complexere taken effectief uit te voeren.

Bovendien is CriticGPT, omdat het zelf een AI-model is, vatbaar voor problemen zoals hallucinaties, die potentiële gevolgen kunnen hebben als ze niet op de juiste manier worden aangepakt.