科学者らがAI研究における「幻覚的な」大規模言語モデルを発見する方法を開発

画期的な進歩として、オックスフォード大学の研究者らは、人工知能（AI）研究で使用される大規模言語モデル（LLM）における幻覚現象の特定と防止において重要な進歩を遂げた。

研究者らは、LLM が「幻覚」を起こしたり、もっともらしく聞こえるが架空の事実をでっち上げたりする可能性があるかどうかを検出する新しい方法を考案した。

もっと直接的な説明としては、法学修士課程では何が正しい答えを定義するのかを特定せず、正しい答えを提示する義務があると感じ、その結果、情報を捏造する、いわゆる「作話」という行動に陥る、ということが考えられます。

この研究の結果は、特に不正確さが深刻な結果につながる可能性がある法律や医療に関する質問への回答などの分野で役立つ可能性があります。

LLM 作話の検出方法

研究チームが開発した方法論は統計学に強く基づいており、個々の単語のシーケンスではなく意味のレベルで不確実性を推定することに重点を置いています。

この方法では、複数の出力間の変動量を測定する意味エントロピーを利用して、LLM 応答の不確実性を計算します。

LLM によって生成された確率を意味の確率に変換することで、研究者は、LLM が答えの言い回しだけでなく実際の意味についても不確かであった例を特定することができました。

実験中、この新しい方法は作話の検出において一貫して従来のアプローチよりも優れた性能を示した。

研究チームは、 Google検索から技術的な生物医学的質問、数学の文章題に至るまでの多様なデータセットを使用して、 GPT-4や LLaMA 2 などのよく知られたモデルを含む 6 つのオープンソース LLM に対してこの手法をテストしました。この手法は、 ChatGPTによって生成された短い経歴における特定の虚偽の主張を識別することにも成功しました。

この手法の大きな利点の 1 つは、タスク固有のデータを必要とする従来のアプローチとは異なり、この方法は事前の知識がなくてもさまざまなデータセットやタスクで動作することです。新しいタスクへの堅牢な一般化により、幅広いアプリケーションで精度と信頼性を確保するために役立ちます。

この検出方法は作話に関連する特定の信頼性の問題に対処しますが、さらなる課題が待ち受けています。LLM による一貫した間違いは、さらなる注意が必要な領域です。

AI の最も有害な失敗は、システムが一貫して不正確だが確信のある体系的な結果を生成する場合に発生します。研究者は、この点に関してまだ多くの作業が必要であることを認めています。