Wissenschaftler entwickeln Methode zum Erkennen „halluzinierender“ großer Sprachmodelle in der KI-Forschung

In einer bahnbrechenden Entwicklung haben Forscher der Universität Oxford entscheidende Fortschritte bei der Identifizierung und Prävention des Phänomens der Halluzination in großen Sprachmodellen (LLMs) erzielt, die in der künstlichen Intelligenz (KI)-Forschung verwendet werden.

Die Forscher haben eine neuartige Methode entwickelt, um festzustellen, wann LLMs dazu neigen, zu „halluzinieren“ oder plausibel klingende, aber eingebildete Tatsachen zu erfinden.

Eine einfachere Erklärung könnte darin bestehen, dass ein LLM nicht weiß, was eine richtige Antwort ausmacht, sich jedoch verpflichtet fühlt, eine solche zu geben, was dazu führt, dass er Informationen erfindet (ein Verhalten, das als „Konfabulation“ bezeichnet wird).

Die Ergebnisse dieser Forschung könnten insbesondere in Bereichen wie der Beantwortung juristischer und medizinischer Fragen von Nutzen sein, in denen Ungenauigkeiten schwerwiegende Konsequenzen haben können.

Methodik zur Erkennung von LLM-Konfabulationen

Die vom Forschungsteam entwickelte Methodik basiert stark auf Statistiken und konzentriert sich auf die Schätzung von Unsicherheit auf der Bedeutungsebene statt auf der Ebene einzelner Wortfolgen.

Die Methode nutzt die semantische Entropie, die den Grad der Variation zwischen mehreren Ausgaben misst, um die Unsicherheit in LLM-Antworten zu berechnen.

Durch die Übersetzung der von den LLMs ermittelten Wahrscheinlichkeiten in Bedeutungswahrscheinlichkeiten konnten die Forscher Fälle identifizieren, in denen sich die LLMs über die tatsächliche Bedeutung ihrer Antworten nicht sicher waren und nicht nur über die Formulierung.

Bei ihren Experimenten war die neue Methode früheren Ansätzen beim Erkennen von Konfabulationen stets überlegen.

Das Forschungsteam testete die Methode an sechs Open-Source-LLMs, darunter bekannte Modelle wie GPT-4 und LLaMA 2, und verwendete dazu unterschiedliche Datensätze, die von Google -Suchen über technische biomedizinische Fragen bis hin zu mathematischen Textaufgaben reichten. Die Methode konnte sogar erfolgreich bestimmte falsche Behauptungen in Kurzbiografien identifizieren, die von ChatGPT generiert wurden.

Ein großer Vorteil dieser Technik ist, dass diese Methode im Gegensatz zu früheren Ansätzen, die aufgabenspezifische Daten erforderten, mit verschiedenen Datensätzen und Aufgaben ohne Vorkenntnisse arbeitet. Ihre robuste Generalisierung auf neue Aufgaben macht sie wertvoll, um Genauigkeit und Zuverlässigkeit in einem breiten Anwendungsbereich sicherzustellen.

Während die Erkennungsmethode spezifische Zuverlässigkeitsprobleme im Zusammenhang mit Konfabulationen angeht, liegen noch weitere Herausforderungen vor uns. Kontinuierliche Fehler von LLMs sind ein Bereich, der weitere Aufmerksamkeit erfordert.

Die schlimmsten Fehler der KI treten dann auf, wenn ein System ständig falsche, aber zuverlässige und systematische Ergebnisse liefert. Forscher räumen ein, dass in dieser Hinsicht noch viel Arbeit zu leisten ist.