OpenAI rozwija model CriticGPT do wychwytywania błędów w kodzie wyjściowym ChatGPT

W czwartek OpenAI ogłosiło nowy model sztucznej inteligencji o nazwie CriticGPT. Model ten został specjalnie zaprojektowany do wychwytywania błędów w kodzie wygenerowanym przez ChatGPT , który ma działać jako asystent AI w celu zwiększenia nadzoru człowieka nad systemami AI i poprawy zgodności zachowania AI z ludzkimi oczekiwaniami.

Rozwój CriticGPT wykorzystuje technikę zwaną uczeniem się przez wzmacnianie na podstawie informacji zwrotnej od ludzi (RLHF), pomagając recenzentom w zwiększaniu dokładności wyników dużych modeli językowych (LLM).

W artykule badawczym zatytułowanym „Krytycy LLM pomagają złapać błędy LLM” OpenAI przedstawia ustalenia dotyczące możliwości wykrywania błędów przez CriticGPT.

Badacze przeszkolili CriticGPT na zestawie danych zawierającym próbki kodu z celowo wstawionymi błędami, co pozwoliło mu nauczyć się identyfikować i oznaczać różne błędy w kodowaniu. Wyniki badania wykazały, że w 63 procentach przypadków obejmujących naturalnie występujące błędy LLM, autorzy komentarzy woleli krytykę CriticGPT od krytyki ludzi.

Ponadto zespoły korzystające z CriticGPT były w stanie napisać bardziej wszechstronne uwagi krytyczne, zmniejszając jednocześnie liczbę konfabulacji w porównaniu z krytykami wykorzystującymi wyłącznie sztuczną inteligencję.

Zastosowanie CriticGPT poza przeglądem kodu

Chociaż CriticGPT został opracowany głównie do przeglądu kodu, badacze odkryli, że jego możliwości wykraczają poza samo identyfikowanie błędów w kodowaniu. Przetestowali CriticGPT na podzbiorze danych szkoleniowych ChatGPT , które komentatorzy uznali wcześniej za doskonałe.

Co zaskakujące, CriticGPT zidentyfikował błędy w 24 procentach tych przypadków, które zostały później zweryfikowane przez weryfikatorów. Pokazuje to potencjał modelu do uogólniania na zadania niekodowe i pokazuje jego zdolność do wychwytywania błędów, które ludzka ocena może przeoczyć.

Należy jednak pamiętać, że CriticGPT ma pewne ograniczenia. Model został wytrenowany na stosunkowo krótkich odpowiedziach ChatGPT , co może nie przygotować go w pełni do oceny dłuższych i bardziej złożonych zadań, z którymi mogą sobie poradzić przyszłe systemy AI.

Dodatkowo, chociaż CriticGPT ogranicza konfabulacje, nie usuwa ich całkowicie, a trenerzy-ludzi nadal mogą popełniać błędy w etykietowaniu z powodu tych nieprawidłowych wyników.

Wyzwania stojące przed zespołami szkoleniowymi CriticGPT

W miarę jak modele językowe, takie jak ChatGPT stają się coraz bardziej zaawansowane i generują skomplikowane i skomplikowane odpowiedzi, trenerom-ludziom coraz trudniej jest dokładnie ocenić jakość wyników.

Stanowi to zasadnicze ograniczenie techniki RLHF, ponieważ modele przewyższają wiedzę i możliwości recenzentów-ludzi.

CriticGPT stawia czoła temu wyzwaniu, pomagając trenerom w dokonywaniu lepszych ocen podczas procesu szkoleniowego. Wykorzystując sztuczną inteligencję do oceny i krytyki wyników ChatGPT , trenerzy-ludzi mogą skorzystać z ulepszonych wskazówek dotyczących dostosowywania modelu językowego do celów ludzkich.

CriticGPT wykazał lepsze możliwości wychwytywania błędów w porównaniu do recenzentów-ludzi. Wyłapał około 85 procent błędów, podczas gdy recenzenci wyłapali tylko 25 procent.

Aby wyszkolić CriticGPT, trenerzy ludzcy celowo wstawili błędy do fragmentów kodu wygenerowanych przez ChatGPT . Metodologia ta pozwoliła badaczom dokładnie ocenić wydajność CriticGPT.

Należy jednak zauważyć, że potrzebne są dalsze badania, aby zastosować CriticGPT do zadań wykraczających poza generowanie kodu i do obsługi bardziej złożonych zadań.

Obecne szkolenie CriticGPT skupiało się na krótkich fragmentach kodu generowanych przez ChatGPT . OpenAI dostrzega potrzebę opracowania nowych metod szkolenia CriticGPT w zakresie skutecznego radzenia sobie z dłuższymi i bardziej złożonymi zadaniami.

Ponadto CriticGPT, sam w sobie będący modelem sztucznej inteligencji, jest podatny na problemy takie jak halucynacje, które mogą mieć potencjalne konsekwencje, jeśli nie zostaną odpowiednio rozwiązane.