OpenAI週四宣布了一個名為 CriticGPT 的新人工智慧模型。該模型專門用於捕捉ChatGPT產生的程式碼中的錯誤,ChatGPT 預計將充當 AI 助手,以增強人類對 AI 系統的監督,並提高 AI 行為與人類期望之間的一致性。
CriticGPT 的開發利用了一種稱為人類回饋強化學習 (RLHF) 的技術,幫助人類審查者使大型語言模型 (LLM) 的輸出更加準確。
在一篇題為「LLM Critics Help Catch LLM Bugs」的研究論文中, OpenAI概述了有關 CriticGPT 錯誤偵測功能的發現。
研究人員在故意插入錯誤的代碼樣本資料集上對 CriticGPT 進行了訓練,使其能夠學習如何識別和標記各種編碼錯誤。研究結果表明,在涉及自然發生的 LLM 錯誤的案例中,63% 的註釋者更喜歡 CriticGPT 的評論而不是人類的評論。
此外,與僅使用 AI 的評論相比,使用 CriticGPT 的團隊能夠撰寫更全面的評論,同時降低虛構率。
CriticGPT 超越程式碼審查的應用
雖然 CriticGPT 主要是為了程式碼審查而開發的,但研究人員發現它的功能不僅僅是識別編碼錯誤。他們在人類註釋者之前認為完美的ChatGPT訓練資料子集上測試了 CriticGPT。
令人驚訝的是,CriticGPT 在其中 24% 的案例中發現了錯誤,這些錯誤後來得到了人工審核員的驗證。這證明了該模型具有推廣到非程式碼任務的潛力,並展示了其捕獲人類評估可能忽略的錯誤的能力。
然而,值得注意的是 CriticGPT 有一些限制。該模型是根據相對較短的ChatGPT答案進行訓練的,這可能無法充分準備好評估未來人工智慧系統可能處理的更長、更複雜的任務。
此外,雖然 CriticGPT 減少了虛構,但它並沒有完全消除它們,並且人類訓練者仍然可能因為這些不正確的輸出而產生標籤錯誤。
CriticGPT 訓練團隊面臨的挑戰
隨著像ChatGPT這樣的語言模型變得更加先進並產生錯綜複雜的答案,人類訓練者準確判斷輸出的品質變得越來越困難。
這對 RLHF 技術構成了根本限制,因為模型超越了人類評審者的知識和能力。
CriticGPT 透過協助人類訓練師在訓練過程中做出更好的判斷來應對這項挑戰。透過利用人工智慧來評估和批評ChatGPT的輸出,人類訓練師可以從增強的指導中受益,使語言模型與人類目標保持一致。
與人類審查員相比,CriticGPT 表現出了卓越的錯誤捕獲能力。它捕獲了大約 85% 的錯誤,而人類審查者僅捕獲了 25%。
為了訓練 CriticGPT,人類訓練員故意將錯誤插入ChatGPT產生的程式碼片段。這種方法使研究人員能夠準確評估 CriticGPT 的性能。
然而,值得注意的是,需要更多的研究來將 CriticGPT 應用於程式碼生成之外的任務以及處理更複雜的任務。
CriticGPT 目前的訓練重點是ChatGPT產生的短程式碼片段。 OpenAI認識到需要開發新方法來訓練 CriticGPT 來有效處理更長、更複雜的任務。
此外,CriticGPT 本身就是一個 AI 模型,很容易出現幻覺等問題,如果處理不當,可能會產生潛在的後果。