OpenAI utvikler CriticGPT-modell for å fange feil i ChatGPT kodeutgang

OpenAI kunngjorde en ny AI-modell kalt CriticGPT på torsdag. Denne modellen er spesielt utviklet for å fange feil i koden generert av ChatGPT , som forventes å fungere som en AI-assistent for å forbedre menneskelig tilsyn med AI-systemer og forbedre tilpasningen mellom AI-adferd og menneskelige forventninger.

Utviklingen av CriticGPT bruker en teknikk kalt Reinforcement Learning from Human Feedback (RLHF), og hjelper menneskelige anmeldere med å gjøre utdataene fra store språkmodeller (LLMs) mer nøyaktige.

I en forskningsartikkel med tittelen "LLM Critics Help Catch LLM Bugs," skisserer OpenAI funnene angående CriticGPTs feildeteksjonsevne.

Forskerne trente CriticGPT på et datasett med kodeeksempler med forsettlig innsatte feil, slik at den kunne lære å identifisere og flagge forskjellige kodefeil. Resultatene av studien viste at annotatorer foretrakk CriticGPTs kritikk fremfor menneskelig kritikk i 63 prosent av tilfellene som involverer naturlig forekommende LLM-feil.

I tillegg var team som brukte CriticGPT i stand til å skrive mer omfattende kritikk samtidig som de reduserte konfabuleringsfrekvensen sammenlignet med kritikk som kun var AI.

Anvendelse av CriticGPT Beyond Code Review

Mens CriticGPT først og fremst ble utviklet for kodegjennomgang, oppdaget forskerne at dens evner strekker seg utover bare å identifisere kodefeil. De testet CriticGPT på en undergruppe av ChatGPT treningsdata som menneskelige annotatorer tidligere hadde identifisert som perfekte.

Overraskende nok identifiserte CriticGPT feil i 24 prosent av disse tilfellene, som senere ble bekreftet av menneskelige anmeldere. Dette demonstrerer modellens potensial til å generalisere til ikke-kodeoppgaver og viser dens evne til å fange opp feil som menneskelig vurdering kan overse.

Det er imidlertid viktig å merke seg at CriticGPT har noen begrensninger. Modellen ble trent på relativt korte ChatGPT svar, som kanskje ikke fullt ut forbereder den for å evaluere lengre og mer komplekse oppgaver som fremtidige AI-systemer kan takle.

I tillegg, mens CriticGPT reduserer konfabulasjoner, fjerner den dem ikke fullstendig, og menneskelige trenere kan fortsatt gjøre merkefeil på grunn av disse feil utdataene.

Utfordringer som CriticGPT-treningsteam møter

Etter hvert som språkmodeller som ChatGPT blir mer avanserte og genererer intrikate og kompliserte svar, blir det stadig vanskeligere for menneskelige trenere å nøyaktig bedømme kvaliteten på utdataene.

Dette utgjør en grunnleggende begrensning for RLHF-teknikken, ettersom modeller overgår kunnskapen og evnene til menneskelige anmeldere.

CriticGPT adresserer denne utfordringen ved å hjelpe menneskelige trenere med å gjøre bedre vurderinger under treningsprosessen. Ved å utnytte AI til å evaluere og kritisere resultatene fra ChatGPT , kan menneskelige trenere dra nytte av forbedret veiledning for å tilpasse språkmodellen til menneskelige mål.

CriticGPT demonstrerte overlegne feilfangende evner sammenlignet med menneskelige anmeldere. Den fanget omtrent 85 prosent av feilene, mens menneskelige anmeldere bare fanget 25 prosent.

For å trene CriticGPT, satte menneskelige trenere bevisst inn feil i kodebitene generert av ChatGPT . Denne metodikken gjorde det mulig for forskerne å evaluere CriticGPTs ytelse nøyaktig.

Det er imidlertid viktig å merke seg at mer forskning er nødvendig for å bruke CriticGPT på oppgaver utover kodegenerering og for å håndtere mer komplekse oppgaver.

CriticGPTs nåværende opplæring fokuserte på korte kodebiter generert av ChatGPT . OpenAI erkjenner behovet for å utvikle nye metoder for å trene CriticGPT til å håndtere lengre og mer komplekse oppgaver effektivt.

I tillegg er CriticGPT, som er en AI-modell i seg selv, utsatt for problemer som hallusinasjoner, som kan ha potensielle konsekvenser hvis de ikke blir løst på riktig måte.