OpenAI desenvolve modelo CriticGPT para detectar bugs na saída de código do ChatGPT

OpenAI anunciou um novo modelo de IA chamado CriticGPT na quinta-feira. Este modelo foi projetado especificamente para detectar bugs no código gerado pelo ChatGPT , que deverá atuar como um assistente de IA para aprimorar a supervisão humana dos sistemas de IA e melhorar o alinhamento entre o comportamento da IA e as expectativas humanas.

O desenvolvimento do CriticGPT utiliza uma técnica chamada Reinforcement Learning from Human Feedback (RLHF), auxiliando os revisores humanos a tornar os resultados de grandes modelos de linguagem (LLMs) mais precisos.

Em um artigo de pesquisa intitulado “LLM Critics Help Catch LLM Bugs”, OpenAI descreve as descobertas sobre a capacidade de detecção de bugs do CriticGPT.

Os pesquisadores treinaram o CriticGPT em um conjunto de dados de amostras de código com bugs inseridos intencionalmente, permitindo-lhe aprender como identificar e sinalizar vários erros de codificação. Os resultados do estudo mostraram que os anotadores preferiram as críticas do CriticGPT às críticas humanas em 63 por cento dos casos envolvendo erros de LLM que ocorrem naturalmente.

Além disso, as equipes que usaram o CriticGPT foram capazes de escrever críticas mais abrangentes e, ao mesmo tempo, reduzir as taxas de confabulação em comparação com as críticas feitas apenas com IA.

Aplicação do CriticGPT além da revisão de código

Embora o CriticGPT tenha sido desenvolvido principalmente para revisão de código, os pesquisadores descobriram que seus recursos vão além da simples identificação de erros de codificação. Eles testaram o CriticGPT em um subconjunto de dados de treinamento ChatGPT que os anotadores humanos haviam identificado anteriormente como perfeitos.

Surpreendentemente, o CriticGPT identificou erros em 24% destes casos, que foram posteriormente verificados por revisores humanos. Isto demonstra o potencial do modelo para generalizar para tarefas não relacionadas ao código e mostra sua capacidade de detectar erros que a avaliação humana poderia ignorar.

No entanto, é importante notar que o CriticGPT tem algumas limitações. O modelo foi treinado em respostas ChatGPT relativamente curtas, o que pode não prepará-lo totalmente para avaliar tarefas mais longas e complexas que futuros sistemas de IA poderão resolver.

Além disso, embora o CriticGPT reduza as confabulações, ele não as remove completamente, e os treinadores humanos ainda podem cometer erros de rotulagem devido a esses resultados incorretos.

Desafios enfrentados pelas equipes de treinamento do CriticGPT

À medida que modelos de linguagem como ChatGPT se tornam mais avançados e geram respostas intrincadas e complicadas, torna-se cada vez mais difícil para os treinadores humanos julgar com precisão a qualidade dos resultados.

Isto representa uma limitação fundamental para a técnica RLHF, pois os modelos ultrapassam o conhecimento e as capacidades dos revisores humanos.

O CriticGPT aborda esse desafio auxiliando os treinadores humanos a fazerem melhores julgamentos durante o processo de treinamento. Ao aproveitar a IA para avaliar e criticar os resultados do ChatGPT , os treinadores humanos podem se beneficiar de uma orientação aprimorada no alinhamento do modelo de linguagem com os objetivos humanos.

O CriticGPT demonstrou capacidades superiores de detecção de bugs em comparação com revisores humanos. Ele detectou aproximadamente 85% dos bugs, enquanto os revisores humanos detectaram apenas 25%.

Para treinar o CriticGPT, os treinadores humanos inseriram deliberadamente bugs nos trechos de código gerados pelo ChatGPT . Esta metodologia permitiu aos pesquisadores avaliar com precisão o desempenho do CriticGPT.

No entanto, é importante observar que são necessárias mais pesquisas para aplicar o CriticGPT a tarefas além da geração de código e para lidar com tarefas mais complexas.

O treinamento atual do CriticGPT se concentrou em pequenos trechos de código gerados pelo ChatGPT . OpenAI reconhece a necessidade de desenvolver novos métodos para treinar o CriticGPT para lidar com tarefas mais longas e complexas de forma eficaz.

Além disso, o CriticGPT, sendo ele próprio um modelo de IA, é suscetível a problemas como alucinações, que podem ter consequências potenciais se não forem devidamente tratados.