OpenAI开发 CriticGPT 模型来捕捉ChatGPT代码输出中的错误

OpenAI周四公布了名为 CriticGPT 的新 AI 模型，该模型专门用于捕捉ChatGPT生成的代码中的错误，有望作为 AI 助手增强人类对 AI 系统的监督，并改善 AI 行为与人类期望之间的一致性。

CriticGPT 的开发采用了一种称为“从人类反馈中强化学习”（RLHF）的技术，帮助人类审阅者使大型语言模型（LLM）的输出更加准确。

OpenAI在一篇题为《LLM 批评家帮助捕捉 LLM 错误》的研究论文中概述了有关 CriticGPT 错误检测能力的发现。

研究人员使用一组故意插入错误的代码样本数据集对 CriticGPT 进行了训练，使其学会如何识别和标记各种编码错误。研究结果表明，在63% 的自然发生的 LLM 错误案例中，注释者更喜欢 CriticGPT 的批评而不是人工批评。

此外，与仅使用 AI 的批评相比，使用 CriticGPT 的团队能够撰写更全面的批评，同时降低虚构率。

CriticGPT 超越代码审查的应用

虽然 CriticGPT 最初是为代码审查而开发的，但研究人员发现，它的功能不仅限于识别编码错误。他们在ChatGPT训练数据的一个子集上测试了 CriticGPT，而此前人类注释者认为这些数据是完美的。

令人惊讶的是，CriticGPT 在其中 24% 的案例中发现了错误，这些错误后来得到了人工审阅者的证实。这证明了该模型具有推广到非代码任务的潜力，并展示了其捕捉人工评估可能忽略的错误的能力。

然而，需要注意的是，CriticGPT 也存在一些局限性。该模型是在相对较短的ChatGPT答案上进行训练的，这可能无法充分满足未来 AI 系统可能处理的更长、更复杂的任务的评估需求。

此外，虽然 CriticGPT 减少了虚构行为，但并不能完全消除它们，并且人类训练师仍然会由于这些不正确的输出而犯下标记错误。

随着ChatGPT等语言模型变得越来越先进并生成错综复杂的答案，人类训练师越来越难以准确判断输出的质量。

这对 RLHF 技术构成了根本的限制，因为模型超越了人类审阅者的知识和能力。

CriticGPT 通过协助人类训练师在训练过程中做出更好的判断来解决这一挑战。通过利用人工智能来评估和批评ChatGPT的输出，人类训练师可以从增强的指导中受益，从而使语言模型与人类目标保持一致。

CriticGPT 展现出比人工审阅者更出色的错误捕捉能力。它捕捉到了大约 85% 的错误，而人工审阅者只能捕捉到 25%。

为了训练 CriticGPT，人类训练员故意在ChatGPT生成的代码片段中插入错误。这种方法使研究人员能够准确评估 CriticGPT 的性能。

然而，值得注意的是，需要进行更多研究才能将 CriticGPT 应用于代码生成以外的任务并处理更复杂的任务。

CriticGPT 目前的训练主要集中在ChatGPT生成的短代码片段上。OpenAI OpenAI到需要开发新方法来训练 CriticGPT 有效地处理更长、更复杂的任务。

此外，CriticGPT 本身作为一种人工智能模型，容易出现幻觉等问题，如果不加以妥善处理，可能会产生潜在的后果。