OpenAI開發 CriticGPT 模型來捕捉ChatGPT程式碼輸出中的錯誤

OpenAI週四宣布了一個名為 CriticGPT 的新人工智慧模型。該模型專門用於捕捉ChatGPT產生的程式碼中的錯誤，ChatGPT 預計將充當 AI 助手，以增強人類對 AI 系統的監督，並提高 AI 行為與人類期望之間的一致性。

CriticGPT 的開發利用了一種稱為人類回饋強化學習 (RLHF) 的技術，幫助人類審查者使大型語言模型 (LLM) 的輸出更加準確。

在一篇題為「LLM Critics Help Catch LLM Bugs」的研究論文中， OpenAI概述了有關 CriticGPT 錯誤偵測功能的發現。

研究人員在故意插入錯誤的代碼樣本資料集上對 CriticGPT 進行了訓練，使其能夠學習如何識別和標記各種編碼錯誤。研究結果表明，在涉及自然發生的 LLM 錯誤的案例中，63% 的註釋者更喜歡 CriticGPT 的評論而不是人類的評論。

此外，與僅使用 AI 的評論相比，使用 CriticGPT 的團隊能夠撰寫更全面的評論，同時降低虛構率。

CriticGPT 超越程式碼審查的應用

雖然 CriticGPT 主要是為了程式碼審查而開發的，但研究人員發現它的功能不僅僅是識別編碼錯誤。他們在人類註釋者之前認為完美的ChatGPT訓練資料子集上測試了 CriticGPT。

令人驚訝的是，CriticGPT 在其中 24% 的案例中發現了錯誤，這些錯誤後來得到了人工審核員的驗證。這證明了該模型具有推廣到非程式碼任務的潛力，並展示了其捕獲人類評估可能忽略的錯誤的能力。

然而，值得注意的是 CriticGPT 有一些限制。該模型是根據相對較短的ChatGPT答案進行訓練的，這可能無法充分準備好評估未來人工智慧系統可能處理的更長、更複雜的任務。

此外，雖然 CriticGPT 減少了虛構，但它並沒有完全消除它們，並且人類訓練者仍然可能因為這些不正確的輸出而產生標籤錯誤。

隨著像ChatGPT這樣的語言模型變得更加先進並產生錯綜複雜的答案，人類訓練者準確判斷輸出的品質變得越來越困難。

這對 RLHF 技術構成了根本限制，因為模型超越了人類評審者的知識和能力。

CriticGPT 透過協助人類訓練師在訓練過程中做出更好的判斷來應對這項挑戰。透過利用人工智慧來評估和批評ChatGPT的輸出，人類訓練師可以從增強的指導中受益，使語言模型與人類目標保持一致。

與人類審查員相比，CriticGPT 表現出了卓越的錯誤捕獲能力。它捕獲了大約 85% 的錯誤，而人類審查者僅捕獲了 25%。

為了訓練 CriticGPT，人類訓練員故意將錯誤插入ChatGPT產生的程式碼片段。這種方法使研究人員能夠準確評估 CriticGPT 的性能。

然而，值得注意的是，需要更多的研究來將 CriticGPT 應用於程式碼生成之外的任務以及處理更複雜的任務。

CriticGPT 目前的訓練重點是ChatGPT產生的短程式碼片段。 OpenAI認識到需要開發新方法來訓練 CriticGPT 來有效處理更長、更複雜的任務。

此外，CriticGPT 本身就是一個 AI 模型，很容易出現幻覺等問題，如果處理不當，可能會產生潛在的後果。