牛津大学的研究人员在一项突破性进展中,在识别和防止人工智能(AI)研究中使用的大型语言模型(LLM)中的幻觉现象方面取得了关键进展。
研究人员设计了一种新方法来检测法学硕士何时可能“产生幻觉”或发明听起来似乎合理但却是虚构的事实。
更直接的解释可能是,法学硕士无法确定什么是正确答案,但觉得有义务提供一个答案,这导致其捏造信息,这种行为被称为“虚构”。
这项研究的结果可能会派上用场,特别是在法律和医学问答等领域,因为不准确的回答可能会导致严重的后果。
检测 LLM 虚构行为背后的方法
研究团队开发的方法主要以统计学为基础,侧重于估计意义层面而不是单个单词序列的不确定性。
该方法利用语义熵(测量多个输出之间的变化量)来计算 LLM 响应中的不确定性。
通过将法学硕士 (LLM) 产生的概率转化为含义的概率,研究人员能够识别出法学硕士 (LLM) 对其答案的实际含义(而不仅仅是措辞)不确定的情况。
在他们的实验中,新方法在检测虚构方面始终优于以前的方法。
研究团队针对六个开源 LLM(包括GPT-4和 LLaMA 2 等知名模型)测试了该方法,使用了从Google搜索到技术生物医学问题和数学应用题等各种数据集。该方法甚至成功识别了ChatGPT生成的简短传记中的特定虚假声明。
该技术的一个主要优点是,与以前需要特定任务数据的方法不同,该方法无需先验知识即可在各种数据集和任务上运行。它对新任务的强大泛化能力使其在确保广泛应用中的准确性和可靠性方面具有重要价值。
虽然检测方法解决了与虚构相关的特定可靠性问题,但未来还有更多挑战。法学硕士经常犯的错误是一个需要进一步关注的领域。
人工智能最严重的故障发生在系统不断产生错误但自信且系统性的结果时。研究人员承认,在这方面仍有许多工作要做。