科學家發展出在人工智慧研究中發現「幻覺」大型語言模型的方法

牛津大學的研究人員在識別和預防人工智慧 (AI) 研究中使用的大型語言模型 (LLM) 中的幻覺現象方面取得了突破性進展。

研究人員設計了一種新方法來檢測法學碩士何時可能產生「幻覺」或發明看似合理但虛構的事實。

一個更直接的解釋可能是，法學碩士無法識別正確答案的定義，但覺得有義務提供一個答案，從而導致其捏造訊息，這種行為稱為「捏造」。

這項研究的結果可能會派上用場，特別是在法律和醫療問答等領域，這些領域的不準確可能會導致嚴重後果。

檢測 LLM 虛構背後的方法論

研究團隊開發的方法強烈基於統計學，著重於估計含義層面的不確定性，而不是單字序列。

此方法利用語意熵（測量多個輸出之間的變化量）來計算 LLM 響應的不確定性。

透過將法學碩士產生的機率轉化為含義機率，研究人員能夠識別法學碩士不確定其答案的實際含義（而不僅僅是措辭）的情況。

在他們的實驗中，新方法在檢測虛構方面始終優於先前的方法。

研究團隊使用從Google搜尋到技術生物醫學問題和數學應用題等多種資料集，針對六個開源法學碩士（包括GPT-4和 LLaMA 2 等著名模型）測試了該方法。該方法甚至成功識別了ChatGPT產生的簡短傳記中的特定虛假聲明。

該技術的一個主要優點是，與先前需要特定於任務的資料的方法不同，該方法在無需先驗知識的情況下對各種資料集和任務進行操作。其對新任務的強大泛化能力使其對於確保廣泛應用中的準確性和可靠性很有價值。

雖然檢測方法解決了與虛構相關的特定可靠性問題，但未來還有更多挑戰。法學碩士所犯的一貫錯誤是一個需要進一步關注的領域。

當系統持續產生不正確但自信且有系統的結果時，人工智慧最有害的失敗就會發生。研究人員承認，在這方面還有很多工作要做。