OpenAI anunció el jueves un nuevo modelo de IA llamado CriticGPT. Este modelo está diseñado específicamente para detectar errores en el código generado por ChatGPT , que se espera que actúe como un asistente de IA para mejorar la supervisión humana de los sistemas de IA y mejorar la alineación entre el comportamiento de la IA y las expectativas humanas.
El desarrollo de CriticGPT utiliza una técnica llamada aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), que ayuda a los revisores humanos a hacer que los resultados de los modelos de lenguaje grandes (LLM) sean más precisos.
En un artículo de investigación titulado "Los críticos de LLM ayudan a detectar errores de LLM", OpenAI describe los hallazgos sobre la capacidad de detección de errores de CriticGPT.
Los investigadores entrenaron a CriticGPT en un conjunto de datos de muestras de código con errores insertados intencionalmente, lo que le permitió aprender a identificar y marcar varios errores de codificación. Los resultados del estudio mostraron que los anotadores prefirieron las críticas de CriticGPT a las críticas humanas en el 63 por ciento de los casos que involucraron errores de LLM que ocurrieron naturalmente.
Además, los equipos que utilizaron CriticGPT pudieron escribir críticas más completas y al mismo tiempo reducir las tasas de fabulación en comparación con las críticas basadas únicamente en IA.
Aplicación de CriticGPT más allá de la revisión del código
Si bien CriticGPT se desarrolló principalmente para la revisión de código, los investigadores descubrieron que sus capacidades van más allá de la simple identificación de errores de codificación. Probaron CriticGPT en un subconjunto de datos de entrenamiento ChatGPT que los anotadores humanos habían identificado previamente como perfectos.
Sorprendentemente, CriticGPT identificó errores en el 24 por ciento de estos casos, que luego fueron verificados por revisores humanos. Esto demuestra el potencial del modelo para generalizarse a tareas que no son de código y muestra su capacidad para detectar errores que la evaluación humana podría pasar por alto.
Sin embargo, es importante señalar que CriticGPT tiene algunas limitaciones. El modelo se entrenó con respuestas ChatGPT relativamente cortas, que pueden no prepararlo completamente para evaluar tareas más largas y complejas que podrían abordar los futuros sistemas de IA.
Además, aunque CriticGPT reduce las confabulaciones, no las elimina por completo y los entrenadores humanos aún pueden cometer errores de etiquetado debido a estos resultados incorrectos.
Desafíos que enfrentan los equipos de capacitación de CriticGPT
A medida que los modelos de lenguaje como ChatGPT se vuelven más avanzados y generan respuestas intrincadas y complicadas, a los capacitadores humanos les resulta cada vez más difícil juzgar con precisión la calidad de los resultados.
Esto plantea una limitación fundamental a la técnica RLHF, ya que los modelos superan el conocimiento y las capacidades de los revisores humanos.
CriticGPT aborda este desafío ayudando a los formadores humanos a tomar mejores decisiones durante el proceso de formación. Al aprovechar la IA para evaluar y criticar los resultados de ChatGPT , los formadores humanos pueden beneficiarse de una orientación mejorada para alinear el modelo de lenguaje con los objetivos humanos.
CriticGPT demostró capacidades superiores de detección de errores en comparación con los revisores humanos. Detectó aproximadamente el 85 por ciento de los errores, mientras que los revisores humanos sólo detectaron el 25 por ciento.
Para entrenar CriticGPT, los entrenadores humanos insertaron deliberadamente errores en los fragmentos de código generados por ChatGPT . Esta metodología permitió a los investigadores evaluar con precisión el rendimiento de CriticGPT.
Sin embargo, es importante señalar que se necesita más investigación para aplicar CriticGPT a tareas más allá de la generación de código y para manejar tareas más complejas.
La capacitación actual de CriticGPT se centró en fragmentos de código corto generados por ChatGPT . OpenAI reconoce la necesidad de desarrollar nuevos métodos para entrenar a CriticGPT para que maneje tareas más largas y complejas de manera efectiva.
Además, CriticGPT, al ser un modelo de IA en sí mismo, es susceptible a problemas como las alucinaciones, que pueden tener consecuencias potenciales si no se abordan adecuadamente.