Naukowcy opracowują metodę wykrywania „halucynacyjnych” modeli wielkojęzykowych w badaniach nad sztuczną inteligencją

Dokonując przełomowego odkrycia, naukowcy z Uniwersytetu Oksfordzkiego poczynili istotne postępy w identyfikowaniu zjawiska halucynacji i zapobieganiu mu w dużych modelach językowych (LLM) wykorzystywanych w badaniach nad sztuczną inteligencją (AI).

Naukowcy opracowali nowatorską metodę wykrywania, kiedy osoby LLM mogą mieć „halucynacje” lub wymyślać wiarygodnie brzmiące, ale wyimaginowane fakty.

Prostszym wyjaśnieniem może być to, że LLM nie określa, co definiuje właściwą odpowiedź, ale czuje się zobowiązany do jej zaoferowania, co prowadzi do sfabrykowania informacji, co jest zachowaniem znanym jako „konfabulacja”.

Wyniki tych badań mogą się przydać, szczególnie w takich dziedzinach, jak odpowiadanie na pytania prawne i medyczne, gdzie nieścisłości mogą prowadzić do poważnych konsekwencji.

Metodologia wykrywania konfabulacji LLM

Metodologia opracowana przez zespół badawczy opiera się silnie na statystyce i koncentruje się na szacowaniu niepewności na poziomie znaczenia, a nie na poszczególnych ciągach słów.

Metoda wykorzystuje entropię semantyczną, która mierzy wielkość zmienności między wieloma wynikami, aby obliczyć niepewność odpowiedzi LLM.

Przekładając prawdopodobieństwa generowane przez LLM na prawdopodobieństwa dotyczące znaczeń, badacze byli w stanie zidentyfikować przypadki, w których LLM nie byli pewni faktycznego znaczenia swoich odpowiedzi, a nie tylko sformułowania.

Podczas eksperymentów nowa metoda konsekwentnie przewyższała poprzednie podejścia w wykrywaniu konfabulacji.

Zespół badawczy przetestował tę metodę w porównaniu z sześcioma modelami LLM o otwartym kodzie źródłowym, w tym dobrze znanymi modelami, takimi jak GPT-4 i LLaMA 2, korzystając z różnorodnych zbiorów danych, od wyszukiwań w Google po techniczne pytania biomedyczne i matematyczne problemy tekstowe. Metoda skutecznie identyfikowała nawet konkretne fałszywe twierdzenia w krótkich biografiach generowanych przez ChatGPT .

Jedną z głównych zalet tej techniki jest to, że w przeciwieństwie do poprzednich podejść, które wymagały danych specyficznych dla zadania, metoda ta działa na różnych zbiorach danych i zadaniach bez wcześniejszej wiedzy. Jego solidne uogólnienie na nowe zadania sprawia, że jest on cenny dla zapewnienia dokładności i niezawodności w szerokim zakresie zastosowań.

Chociaż metoda wykrywania rozwiązuje konkretne problemy z niezawodnością związane z konfabulacjami, przed nami jeszcze więcej wyzwań. Powtarzające się błędy popełniane przez LLM to obszar wymagający dalszej uwagi.

Najbardziej szkodliwe awarie sztucznej inteligencji mają miejsce, gdy system konsekwentnie generuje nieprawidłowe, ale pewne i systematyczne wyniki. Naukowcy przyznają, że w tym zakresie jest jeszcze wiele do zrobienia.