OpenAI udvikler CriticGPT-model til at fange fejl i ChatGPT 's kodeoutput

OpenAI annoncerede en ny AI-model kaldet CriticGPT torsdag. Denne model er specifikt designet til at fange fejl i koden genereret af ChatGPT , som forventes at fungere som en AI-assistent for at forbedre menneskelig overvågning af AI-systemer og forbedre tilpasningen mellem AI-adfærd og menneskelige forventninger.

Udviklingen af CriticGPT bruger en teknik kaldet Reinforcement Learning from Human Feedback (RLHF), der hjælper menneskelige anmeldere med at gøre output fra store sprogmodeller (LLM'er) mere nøjagtige.

I en forskningsartikel med titlen "LLM Critics Help Catch LLM Bugs" skitserer OpenAI resultaterne vedrørende CriticGPTs fejldetektionsevne.

Forskerne trænede CriticGPT på et datasæt af kodeeksempler med bevidst indsatte fejl, hvilket gjorde det muligt for den at lære at identificere og markere forskellige kodningsfejl. Resultaterne af undersøgelsen viste, at annotatorer foretrak CriticGPTs kritik frem for menneskelig kritik i 63 procent af tilfældene, der involverede naturligt forekommende LLM-fejl.

Derudover var hold, der brugte CriticGPT, i stand til at skrive mere omfattende kritik, mens de reducerede konfabuleringsrater sammenlignet med AI-kun kritik.

Anvendelse af CriticGPT Beyond Code Review

Mens CriticGPT primært blev udviklet til kodegennemgang, opdagede forskerne, at dets muligheder strækker sig ud over blot at identificere kodefejl. De testede CriticGPT på en undergruppe af ChatGPT træningsdata, som menneskelige annotatorer tidligere havde identificeret som perfekte.

Overraskende nok identificerede CriticGPT fejl i 24 procent af disse tilfælde, som senere blev verificeret af menneskelige anmeldere. Dette demonstrerer modellens potentiale til at generalisere til ikke-kode opgaver og viser dens evne til at fange fejl, som menneskelig vurdering kunne overse.

Det er dog vigtigt at bemærke, at CriticGPT har nogle begrænsninger. Modellen blev trænet på relativt korte ChatGPT svar, som måske ikke helt forbereder den til at evaluere længere og mere komplekse opgaver, som fremtidige AI-systemer kan tackle.

Derudover, mens CriticGPT reducerer konfabulationer, fjerner den dem ikke fuldstændigt, og menneskelige trænere kan stadig lave mærkningsfejl på grund af disse forkerte output.

Udfordringer fra CriticGPT Training Teams

Efterhånden som sprogmodeller som ChatGPT bliver mere avancerede og genererer indviklede og komplicerede svar, bliver det stadig sværere for menneskelige trænere at præcist bedømme kvaliteten af output.

Dette udgør en grundlæggende begrænsning for RLHF-teknikken, da modeller overgår menneskelige anmelderes viden og evner.

CriticGPT løser denne udfordring ved at hjælpe menneskelige trænere med at foretage bedre vurderinger under træningsprocessen. Ved at udnytte AI til at evaluere og kritisere resultaterne af ChatGPT , kan menneskelige trænere drage fordel af forbedret vejledning i at tilpasse sprogmodellen til menneskelige mål.

CriticGPT demonstrerede overlegne fejlfangende evner sammenlignet med menneskelige anmeldere. Det fangede cirka 85 procent af fejlene, mens menneskelige anmeldere kun fangede 25 procent.

For at træne CriticGPT indsatte menneskelige trænere bevidst fejl i kodestykkerne genereret af ChatGPT . Denne metode gjorde det muligt for forskerne at evaluere CriticGPTs præstation nøjagtigt.

Det er dog vigtigt at bemærke, at der er behov for mere forskning for at anvende CriticGPT til opgaver ud over kodegenerering og for at håndtere mere komplekse opgaver.

CriticGPTs nuværende træning fokuserede på korte kodestykker genereret af ChatGPT . OpenAI anerkender behovet for at udvikle nye metoder til at træne CriticGPT til at håndtere længere og mere komplekse opgaver effektivt.

Derudover er CriticGPT, som er en AI-model i sig selv, modtagelig for problemer som hallucinationer, som kan have potentielle konsekvenser, hvis de ikke løses ordentligt.