В четверг OpenAI анонсировала новую модель искусственного интеллекта под названием CriticGPT. Эта модель специально разработана для выявления ошибок в коде, генерируемом ChatGPT , который, как ожидается, будет действовать как помощник искусственного интеллекта для улучшения человеческого контроля над системами искусственного интеллекта и улучшения согласованности между поведением искусственного интеллекта и человеческими ожиданиями.
При разработке CriticGPT используется метод под названием «Обучение с подкреплением на основе обратной связи с человеком» (RLHF), который помогает рецензентам сделать результаты больших языковых моделей (LLM) более точными.
В исследовательской статье под названием «Критики LLM помогают выявлять ошибки LLM» OpenAI излагает выводы, касающиеся возможностей CriticGPT по обнаружению ошибок.
Исследователи обучили CriticGPT набору данных образцов кода с намеренно вставленными ошибками, что позволило ему научиться выявлять и отмечать различные ошибки в коде. Результаты исследования показали, что комментаторы предпочитали критику CriticGPT критике человека в 63 процентах случаев, связанных с естественными ошибками LLM.
Кроме того, команды, использующие CriticGPT, смогли писать более подробные критические анализы, одновременно снижая уровень путаницы по сравнению с критическими анализами, написанными только с помощью ИИ.
Применение CriticGPT помимо проверки кода
Хотя CriticGPT в первую очередь был разработан для проверки кода, исследователи обнаружили, что его возможности выходят за рамки простого выявления ошибок в коде. Они протестировали CriticGPT на подмножестве обучающих данных ChatGPT , которые аннотаторы ранее считали идеальными.
Удивительно, но CriticGPT выявил ошибки в 24 процентах этих случаев, которые позже были проверены рецензентами. Это демонстрирует потенциал модели для обобщения задач, не связанных с кодированием, и демонстрирует ее способность выявлять ошибки, которые человеческая оценка может не заметить.
Однако важно отметить, что CriticGPT имеет некоторые ограничения. Модель была обучена на относительно коротких ответах ChatGPT , что может не полностью подготовить ее к оценке более длинных и сложных задач, которые могут решать будущие системы искусственного интеллекта.
Кроме того, хотя CriticGPT уменьшает количество путаниц, он не устраняет их полностью, и тренеры-люди все равно могут допускать ошибки в маркировке из-за этих неверных результатов.
Проблемы, с которыми сталкиваются учебные группы CriticGPT
Поскольку языковые модели, такие как ChatGPT становятся все более совершенными и генерируют сложные и сложные ответы, инструкторам-людям становится все труднее точно оценивать качество результатов.
Это накладывает фундаментальное ограничение на метод RLHF, поскольку модели превосходят знания и возможности людей-рецензентов.
CriticGPT решает эту проблему, помогая тренерам-людям принимать более правильные решения в процессе обучения. Используя ИИ для оценки и критики результатов ChatGPT , тренеры-люди могут получить расширенные рекомендации по согласованию языковой модели с человеческими целями.
CriticGPT продемонстрировал превосходные возможности обнаружения ошибок по сравнению с рецензентами-людьми. Он обнаружил примерно 85 процентов ошибок, в то время как рецензенты-люди обнаружили только 25 процентов.
Чтобы обучить CriticGPT, тренеры-люди намеренно вставляли ошибки во фрагменты кода, генерируемые ChatGPT . Эта методология позволила исследователям точно оценить производительность CriticGPT.
Однако важно отметить, что необходимы дополнительные исследования, чтобы применить CriticGPT к задачам, выходящим за рамки генерации кода, и для решения более сложных задач.
Текущее обучение CriticGPT сосредоточено на фрагментах короткого кода, созданных ChatGPT . OpenAI осознает необходимость разработки новых методов обучения CriticGPT эффективному решению более длительных и сложных задач.
Кроме того, CriticGPT, будучи моделью искусственного интеллекта, подвержен таким проблемам, как галлюцинации, которые могут иметь потенциальные последствия, если их не решить должным образом.