OpenAI ha annunciato giovedì un nuovo modello di intelligenza artificiale chiamato CriticGPT. Questo modello è specificamente progettato per individuare bug nel codice generato da ChatGPT , che dovrebbe fungere da assistente AI per migliorare la supervisione umana dei sistemi AI e migliorare l'allineamento tra il comportamento dell'IA e le aspettative umane.
Lo sviluppo di CriticGPT utilizza una tecnica chiamata Reinforcement Learning from Human Feedback (RLHF), che aiuta i revisori umani a rendere più accurati i risultati dei modelli linguistici di grandi dimensioni (LLM).
In un documento di ricerca intitolato "I critici LLM aiutano a catturare i bug LLM", OpenAI delinea i risultati relativi alla capacità di rilevamento dei bug di CriticGPT.
I ricercatori hanno addestrato CriticGPT su un set di dati di campioni di codice con bug inseriti intenzionalmente, permettendogli di imparare come identificare e segnalare vari errori di codifica. I risultati dello studio hanno mostrato che gli annotatori preferivano le critiche di CriticGPT rispetto alle critiche umane nel 63% dei casi che coinvolgevano errori LLM che si verificavano naturalmente.
Inoltre, i team che utilizzano CriticGPT sono stati in grado di scrivere critiche più complete riducendo al contempo i tassi di confabulazione rispetto alle critiche basate esclusivamente sull’intelligenza artificiale.
Applicazione di CriticGPT Beyond Code Review
Sebbene CriticGPT sia stato sviluppato principalmente per la revisione del codice, i ricercatori hanno scoperto che le sue capacità vanno oltre la semplice identificazione degli errori di codifica. Hanno testato CriticGPT su un sottoinsieme di dati di addestramento ChatGPT che gli annotatori umani avevano precedentemente identificato come perfetti.
Sorprendentemente, CriticGPT ha identificato errori nel 24% di questi casi, che sono stati successivamente verificati da revisori umani. Ciò dimostra il potenziale del modello di generalizzare ad attività non di codice e mostra la sua capacità di individuare errori che la valutazione umana potrebbe trascurare.
Tuttavia, è importante notare che CriticGPT presenta alcune limitazioni. Il modello è stato addestrato su risposte ChatGPT relativamente brevi, che potrebbero non prepararlo completamente alla valutazione di compiti più lunghi e complessi che i futuri sistemi di intelligenza artificiale potrebbero affrontare.
Inoltre, sebbene CriticGPT riduca le confabulazioni, non le rimuove completamente e gli addestratori umani possono comunque commettere errori di etichettatura a causa di questi output errati.
Sfide affrontate dai team di formazione CriticGPT
Poiché i modelli linguistici come ChatGPT diventano più avanzati e generano risposte complesse e complicate, diventa sempre più difficile per i formatori umani giudicare accuratamente la qualità dei risultati.
Ciò pone una limitazione fondamentale alla tecnica RLHF, poiché i modelli superano le conoscenze e le capacità dei revisori umani.
CriticGPT affronta questa sfida aiutando i formatori umani a formulare giudizi migliori durante il processo di formazione. Sfruttando l'intelligenza artificiale per valutare e criticare i risultati di ChatGPT , i formatori umani possono beneficiare di una guida migliorata per allineare il modello linguistico agli obiettivi umani.
CriticGPT ha dimostrato capacità di individuazione dei bug superiori rispetto ai revisori umani. Ha rilevato circa l'85% dei bug, mentre i revisori umani ne hanno rilevato solo il 25%.
Per addestrare CriticGPT, i formatori umani hanno deliberatamente inserito dei bug negli snippet di codice generati da ChatGPT . Questa metodologia ha permesso ai ricercatori di valutare accuratamente le prestazioni di CriticGPT.
Tuttavia, è importante notare che sono necessarie ulteriori ricerche per applicare CriticGPT ad attività che vanno oltre la generazione di codice e per gestire attività più complesse.
L'attuale formazione di CriticGPT si concentra sugli snippet di codici brevi generati da ChatGPT . OpenAI riconosce la necessità di sviluppare nuovi metodi per addestrare CriticGPT a gestire in modo efficace compiti più lunghi e complessi.
Inoltre, CriticGPT, essendo esso stesso un modello di intelligenza artificiale, è suscettibile a problemi come le allucinazioni, che possono avere potenziali conseguenze se non adeguatamente affrontate.