OpenAI разрабатывает модель CriticGPT для выявления ошибок в выводе кода ChatGPT

В четверг OpenAI анонсировала новую модель искусственного интеллекта под названием CriticGPT. Эта модель специально разработана для выявления ошибок в коде, генерируемом ChatGPT , который, как ожидается, будет действовать как помощник искусственного интеллекта для улучшения человеческого контроля над системами искусственного интеллекта и улучшения согласованности между поведением искусственного интеллекта и человеческими ожиданиями.

При разработке CriticGPT используется метод под названием «Обучение с подкреплением на основе обратной связи с человеком» (RLHF), который помогает рецензентам сделать результаты больших языковых моделей (LLM) более точными.

В исследовательской статье под названием «Критики LLM помогают выявлять ошибки LLM» OpenAI излагает выводы, касающиеся возможностей CriticGPT по обнаружению ошибок.

Исследователи обучили CriticGPT набору данных образцов кода с намеренно вставленными ошибками, что позволило ему научиться выявлять и отмечать различные ошибки в коде. Результаты исследования показали, что комментаторы предпочитали критику CriticGPT критике человека в 63 процентах случаев, связанных с естественными ошибками LLM.

Кроме того, команды, использующие CriticGPT, смогли писать более подробные критические анализы, одновременно снижая уровень путаницы по сравнению с критическими анализами, написанными только с помощью ИИ.

Применение CriticGPT помимо проверки кода

Хотя CriticGPT в первую очередь был разработан для проверки кода, исследователи обнаружили, что его возможности выходят за рамки простого выявления ошибок в коде. Они протестировали CriticGPT на подмножестве обучающих данных ChatGPT , которые аннотаторы ранее считали идеальными.

Удивительно, но CriticGPT выявил ошибки в 24 процентах этих случаев, которые позже были проверены рецензентами. Это демонстрирует потенциал модели для обобщения задач, не связанных с кодированием, и демонстрирует ее способность выявлять ошибки, которые человеческая оценка может не заметить.

Однако важно отметить, что CriticGPT имеет некоторые ограничения. Модель была обучена на относительно коротких ответах ChatGPT , что может не полностью подготовить ее к оценке более длинных и сложных задач, которые могут решать будущие системы искусственного интеллекта.

Кроме того, хотя CriticGPT уменьшает количество путаниц, он не устраняет их полностью, и тренеры-люди все равно могут допускать ошибки в маркировке из-за этих неверных результатов.

Проблемы, с которыми сталкиваются учебные группы CriticGPT

Поскольку языковые модели, такие как ChatGPT становятся все более совершенными и генерируют сложные и сложные ответы, инструкторам-людям становится все труднее точно оценивать качество результатов.

Это накладывает фундаментальное ограничение на метод RLHF, поскольку модели превосходят знания и возможности людей-рецензентов.

CriticGPT решает эту проблему, помогая тренерам-людям принимать более правильные решения в процессе обучения. Используя ИИ для оценки и критики результатов ChatGPT , тренеры-люди могут получить расширенные рекомендации по согласованию языковой модели с человеческими целями.

CriticGPT продемонстрировал превосходные возможности обнаружения ошибок по сравнению с рецензентами-людьми. Он обнаружил примерно 85 процентов ошибок, в то время как рецензенты-люди обнаружили только 25 процентов.

Чтобы обучить CriticGPT, тренеры-люди намеренно вставляли ошибки во фрагменты кода, генерируемые ChatGPT . Эта методология позволила исследователям точно оценить производительность CriticGPT.

Однако важно отметить, что необходимы дополнительные исследования, чтобы применить CriticGPT к задачам, выходящим за рамки генерации кода, и для решения более сложных задач.

Текущее обучение CriticGPT сосредоточено на фрагментах короткого кода, созданных ChatGPT . OpenAI осознает необходимость разработки новых методов обучения CriticGPT эффективному решению более длительных и сложных задач.

Кроме того, CriticGPT, будучи моделью искусственного интеллекта, подвержен таким проблемам, как галлюцинации, которые могут иметь потенциальные последствия, если их не решить должным образом.