OpenAI周四公布了名为 CriticGPT 的新 AI 模型,该模型专门用于捕捉ChatGPT生成的代码中的错误,有望作为 AI 助手增强人类对 AI 系统的监督,并改善 AI 行为与人类期望之间的一致性。
CriticGPT 的开发采用了一种称为“从人类反馈中强化学习”(RLHF)的技术,帮助人类审阅者使大型语言模型(LLM)的输出更加准确。
OpenAI在一篇题为《LLM 批评家帮助捕捉 LLM 错误》的研究论文中概述了有关 CriticGPT 错误检测能力的发现。
研究人员使用一组故意插入错误的代码样本数据集对 CriticGPT 进行了训练,使其学会如何识别和标记各种编码错误。研究结果表明,在63% 的自然发生的 LLM 错误案例中,注释者更喜欢 CriticGPT 的批评而不是人工批评。
此外,与仅使用 AI 的批评相比,使用 CriticGPT 的团队能够撰写更全面的批评,同时降低虚构率。
CriticGPT 超越代码审查的应用
虽然 CriticGPT 最初是为代码审查而开发的,但研究人员发现,它的功能不仅限于识别编码错误。他们在ChatGPT训练数据的一个子集上测试了 CriticGPT,而此前人类注释者认为这些数据是完美的。
令人惊讶的是,CriticGPT 在其中 24% 的案例中发现了错误,这些错误后来得到了人工审阅者的证实。这证明了该模型具有推广到非代码任务的潜力,并展示了其捕捉人工评估可能忽略的错误的能力。
然而,需要注意的是,CriticGPT 也存在一些局限性。该模型是在相对较短的ChatGPT答案上进行训练的,这可能无法充分满足未来 AI 系统可能处理的更长、更复杂的任务的评估需求。
此外,虽然 CriticGPT 减少了虚构行为,但并不能完全消除它们,并且人类训练师仍然会由于这些不正确的输出而犯下标记错误。
CriticGPT 培训团队面临的挑战
随着ChatGPT等语言模型变得越来越先进并生成错综复杂的答案,人类训练师越来越难以准确判断输出的质量。
这对 RLHF 技术构成了根本的限制,因为模型超越了人类审阅者的知识和能力。
CriticGPT 通过协助人类训练师在训练过程中做出更好的判断来解决这一挑战。通过利用人工智能来评估和批评ChatGPT的输出,人类训练师可以从增强的指导中受益,从而使语言模型与人类目标保持一致。
CriticGPT 展现出比人工审阅者更出色的错误捕捉能力。它捕捉到了大约 85% 的错误,而人工审阅者只能捕捉到 25%。
为了训练 CriticGPT,人类训练员故意在ChatGPT生成的代码片段中插入错误。这种方法使研究人员能够准确评估 CriticGPT 的性能。
然而,值得注意的是,需要进行更多研究才能将 CriticGPT 应用于代码生成以外的任务并处理更复杂的任务。
CriticGPT 目前的训练主要集中在ChatGPT生成的短代码片段上。OpenAI OpenAI到需要开发新方法来训练 CriticGPT 有效地处理更长、更复杂的任务。
此外,CriticGPT 本身作为一种人工智能模型,容易出现幻觉等问题,如果不加以妥善处理,可能会产生潜在的后果。