OpenAI木曜日に、CriticGPTと呼ばれる新しいAIモデルを発表した。このモデルは、 ChatGPTによって生成されたコードのバグを見つけるために特別に設計されており、AIシステムに対する人間の監視を強化し、AIの動作と人間の期待の整合性を向上させるAIアシスタントとして機能することが期待されている。
CriticGPT の開発では、人間のフィードバックからの強化学習 (RLHF) と呼ばれる手法が利用され、人間のレビュー担当者が大規模言語モデル (LLM) の出力をより正確に作成できるように支援します。
OpenAI 、「LLM 批評家が LLM バグの検出に役立つ」と題された研究論文で、CriticGPT のバグ検出機能に関する調査結果を概説しています。
研究者らは、意図的にバグが挿入されたコードサンプルのデータセットで CriticGPT をトレーニングし、さまざまなコーディングエラーを識別してフラグを立てる方法を学習できるようにしました。研究の結果、自然に発生する LLM の間違いを含むケースの 63 パーセントで、注釈者は人間の批評よりも CriticGPT の批評を好んだことがわかりました。
さらに、CriticGPT を使用したチームは、AI のみの批評と比較して作話率を減らしながら、より包括的な批評を書くことができました。
コードレビューを超えた CriticGPT の応用
CriticGPT は主にコードレビュー用に開発されましたが、研究者たちはその機能がコーディングエラーの特定だけにとどまらないことを発見しました。彼らは、人間の注釈者が以前に完璧だと判断したChatGPTトレーニング データのサブセットで CriticGPT をテストしました。
驚くべきことに、CriticGPT はこれらのケースの 24 パーセントでエラーを特定し、その後、人間のレビュー担当者によって検証されました。これは、モデルがコード以外のタスクにも一般化できる可能性を示しており、人間の評価では見逃される可能性のある間違いをキャッチする能力を示しています。
ただし、CriticGPT にはいくつかの制限があることに注意することが重要です。このモデルは比較的短いChatGPTの回答でトレーニングされたため、将来の AI システムが取り組む可能性のある、より長く複雑なタスクを評価するための準備が完全に整っていない可能性があります。
さらに、CriticGPT は作話を減らしますが、作話を完全に除去するわけではなく、人間のトレーナーはこれらの誤った出力のためにラベル付けエラーを起こす可能性があります。
CriticGPT トレーニング チームが直面する課題
ChatGPTのような言語モデルがより高度になり、複雑で入り組んだ回答を生成するようになると、人間のトレーナーが出力の品質を正確に判断することがますます難しくなります。
モデルは人間のレビュー担当者の知識と能力を超えているため、RLHF 技術には根本的な制限が生じます。
CriticGPT は、トレーニング プロセス中に人間のトレーナーがより良い判断を下せるように支援することで、この課題に対処します。AI を活用してChatGPTの出力を評価および批評することで、人間のトレーナーは、言語モデルを人間の目標に合わせるための強化されたガイダンスの恩恵を受けることができます。
CriticGPT は、人間のレビュー担当者と比較して、優れたバグ検出能力を示しました。約 85% のバグを検出しましたが、人間のレビュー担当者は 25% しか検出できませんでした。
CriticGPT をトレーニングするために、人間のトレーナーがChatGPTによって生成されたコード スニペットに意図的にバグを挿入しました。この方法論により、研究者は CriticGPT のパフォーマンスを正確に評価することができました。
ただし、コード生成以外のタスクに CriticGPT を適用し、より複雑なタスクを処理するには、さらなる研究が必要であることに注意することが重要です。
CriticGPT の現在のトレーニングは、 ChatGPTによって生成された短いコード スニペットに重点を置いています。OpenAI OpenAI 、より長く複雑なタスクを効果的に処理できるように CriticGPT をトレーニングするための新しい方法を開発する必要性を認識しています。
さらに、CriticGPT 自体が AI モデルであるため、幻覚などの問題の影響を受けやすく、適切に対処しないと潜在的な結果が生じる可能性があります。