Wetenschappers ontwikkelen methode om 'hallucinerende' grote taalmodellen in AI-onderzoek te ontdekken

In een baanbrekende ontwikkeling hebben onderzoekers van de Universiteit van Oxford cruciale vooruitgang geboekt bij het identificeren en voorkomen van het fenomeen hallucinatie in grote taalmodellen (LLM's) die worden gebruikt in onderzoek naar kunstmatige intelligentie (AI).

De onderzoekers hebben een nieuwe methode bedacht om te detecteren wanneer LLM's waarschijnlijk "hallucineren" of plausibel klinkende maar denkbeeldige feiten verzinnen.

Een eenvoudigere verklaring kan zijn dat een LLM niet identificeert wat een juist antwoord definieert, maar zich verplicht voelt om er een te geven, waardoor hij informatie verzint, een gedrag dat bekend staat als 'confabulatie'.

De resultaten van dit onderzoek kunnen van pas komen, vooral op terreinen als het beantwoorden van juridische en medische vragen, waar onnauwkeurigheden tot ernstige gevolgen kunnen leiden.

Methodologie achter het detecteren van LLM-confabulaties

De door het onderzoeksteam ontwikkelde methodologie is sterk gebaseerd op statistiek en richt zich op het inschatten van onzekerheid op het niveau van de betekenis in plaats van op individuele woordreeksen.

De methode maakt gebruik van semantische entropie, die de hoeveelheid variatie tussen meerdere outputs meet, om de onzekerheid in LLM-reacties te berekenen.

Door de door LLM's geproduceerde waarschijnlijkheden te vertalen naar waarschijnlijkheden boven betekenissen, konden de onderzoekers gevallen identificeren waarin LLM's onzeker waren over de werkelijke betekenis van hun antwoorden, en niet alleen over de formulering.

Tijdens hun experimenten presteerde de nieuwe methode consequent beter dan eerdere benaderingen bij het detecteren van verzinsels.

Het onderzoeksteam testte de methode aan de hand van zes open-source LLM's, waaronder bekende modellen zoals GPT-4 en LLaMA 2, met behulp van diverse datasets variërend van Google zoekopdrachten tot technische biomedische vragen en wiskundige woordproblemen. De methode identificeerde zelfs met succes specifieke valse claims in korte biografieën gegenereerd door ChatGPT .

Een groot voordeel van deze techniek is dat, in tegenstelling tot eerdere benaderingen waarbij taakspecifieke gegevens nodig waren, deze methode zonder voorafgaande kennis op verschillende datasets en taken werkt. De robuuste generalisatie naar nieuwe taken maakt het waardevol voor het garanderen van nauwkeurigheid en betrouwbaarheid in een breed scala aan toepassingen.

Hoewel de detectiemethode specifieke betrouwbaarheidsproblemen aanpakt die verband houden met confabulaties, liggen er nog meer uitdagingen in het verschiet. Aanhoudende fouten gemaakt door LLM's zijn een gebied dat verdere aandacht vereist.

De meest schadelijke mislukkingen van AI doen zich voor wanneer een systeem consequent onjuiste maar zelfverzekerde en systematische resultaten produceert. Onderzoekers erkennen dat er op dit vlak nog veel werk te doen is.