Gli scienziati sviluppano un metodo per individuare modelli linguistici di grandi dimensioni "allucinanti" nella ricerca sull'intelligenza artificiale

Con uno sviluppo rivoluzionario, i ricercatori dell’Università di Oxford hanno compiuto progressi cruciali nell’identificazione e nella prevenzione del fenomeno delle allucinazioni nei modelli linguistici di grandi dimensioni (LLM) utilizzati nella ricerca sull’intelligenza artificiale (AI).

I ricercatori hanno ideato un nuovo metodo per rilevare quando è probabile che gli LLM abbiano "allucinazioni" o inventino fatti apparentemente plausibili ma immaginari.

Una spiegazione più semplice potrebbe essere che un LLM non identifica ciò che definisce una risposta giusta ma si sente obbligato a offrirne una, portandolo a fabbricare informazioni, un comportamento noto come “confabulazione”.

I risultati di questa ricerca potrebbero tornare utili, soprattutto in campi come la risposta a domande legali e mediche, dove le imprecisioni possono portare a gravi conseguenze.

Metodologia alla base del rilevamento delle confabulazioni LLM

La metodologia sviluppata dal gruppo di ricerca è fortemente basata sulla statistica e si concentra sulla stima dell'incertezza a livello di significato anziché su singole sequenze di parole.

Il metodo utilizza l'entropia semantica, che misura la quantità di variazione tra più output, per calcolare l'incertezza nelle risposte LLM.

Traducendo le probabilità prodotte dai LLM in probabilità sui significati, i ricercatori sono stati in grado di identificare i casi in cui i LLM erano incerti sul significato effettivo delle loro risposte, non solo sulla frase.

Durante i loro esperimenti, il nuovo metodo ha costantemente sovraperformato gli approcci precedenti nel rilevamento delle confabulazioni.

Il team di ricerca ha testato il metodo rispetto a sei LLM open source, inclusi modelli ben noti come GPT-4 e LLaMA 2, utilizzando diversi set di dati che vanno dalle ricerche Google alle domande tecniche biomediche e ai problemi di parole matematiche. Il metodo è riuscito a identificare con successo anche specifiche false affermazioni nelle brevi biografie generate da ChatGPT .

Uno dei principali vantaggi di questa tecnica è che, a differenza degli approcci precedenti che richiedevano dati specifici per attività, questo metodo opera su vari set di dati e attività senza alcuna conoscenza preliminare. La sua robusta generalizzazione a nuovi compiti lo rende prezioso per garantire precisione e affidabilità in un'ampia gamma di applicazioni.

Sebbene il metodo di rilevamento affronti specifici problemi di affidabilità legati alle confabulazioni, si prospettano altre sfide. Gli errori ricorrenti commessi dagli LLM sono un'area che richiede ulteriore attenzione.

I fallimenti più dannosi dell’intelligenza artificiale si verificano quando un sistema produce costantemente risultati errati ma sicuri e sistematici. I ricercatori riconoscono che c’è ancora molto lavoro da fare in questo senso.