OpenAI ChatGPT 코드 출력에서 버그를 잡기 위해 CriticGPT 모델 개발

OpenAI 목요일 CriticGPT라는 새로운 AI 모델을 발표했습니다. 이 모델은 AI 시스템에 대한 인간의 감독을 강화하고 AI 행동과 인간 기대 사이의 조정을 개선하기 위한 AI 보조자 역할을 할 것으로 예상되는 ChatGPT 에서 생성된 코드의 버그를 잡기 위해 특별히 설계되었습니다.

CriticGPT의 개발에서는 RLHF(인간 피드백으로부터의 강화 학습)라는 기술을 활용하여 인간 검토자가 LLM(대형 언어 모델)의 출력을 더 정확하게 만들 수 있도록 지원합니다.

OpenAI "LLM Critics Help Catch LLM Bugs"라는 제목의 연구 논문에서 CriticGPT의 버그 감지 기능에 관한 조사 결과를 간략하게 설명합니다.

연구원들은 의도적으로 버그가 삽입된 코드 샘플 데이터세트에 대해 CriticGPT를 교육하여 다양한 코딩 오류를 식별하고 플래그를 지정하는 방법을 학습할 수 있게 했습니다. 연구 결과에 따르면 자연적으로 발생하는 LLM 실수와 관련된 사례의 63% 에서 주석 작성자가 사람의 비평보다 CriticGPT의 비평을 선호하는 것으로 나타났습니다.

또한 CriticGPT를 사용하는 팀은 AI 전용 비평에 비해 조작 비율을 줄이면서 보다 포괄적인 비평을 작성할 수 있었습니다.

코드 리뷰를 넘어 CriticGPT 적용

CriticGPT는 주로 코드 검토를 위해 개발되었지만 연구원들은 그 기능이 단순히 코딩 오류를 식별하는 것 이상으로 확장된다는 사실을 발견했습니다. 그들은 인간 주석자가 이전에 완벽하다고 식별한 ChatGPT 교육 데이터의 하위 집합에 대해 CriticGPT를 테스트했습니다.

놀랍게도 CriticGPT는 이러한 사례 중 24%에서 오류를 식별했으며 나중에 검토자가 이를 확인했습니다. 이는 코드가 아닌 작업으로 일반화할 수 있는 모델의 잠재력을 보여주고 인간 평가에서 간과할 수 있는 실수를 포착하는 능력을 보여줍니다.

그러나 CriticGPT에는 몇 가지 제한 사항이 있다는 점에 유의하는 것이 중요합니다. 이 모델은 상대적으로 짧은 ChatGPT 답변으로 훈련되었으므로 미래의 AI 시스템이 처리할 수 있는 더 길고 복잡한 작업을 평가하기 위해 완전히 준비되지 않을 수 있습니다.

또한 CriticGPT는 조작을 줄이지만 완전히 제거하지는 않으며 인간 트레이너는 이러한 잘못된 출력으로 인해 라벨링 오류를 계속 범할 수 있습니다.

CriticGPT 교육팀이 직면한 과제

ChatGPT 와 같은 언어 모델이 더욱 발전하고 복잡하고 복잡한 답변을 생성함에 따라 인간 트레이너가 출력의 품질을 정확하게 판단하는 것이 점점 더 어려워지고 있습니다.

이는 모델이 인간 검토자의 지식과 능력을 능가하기 때문에 RLHF 기술에 근본적인 한계를 제기합니다.

CriticGPT는 훈련 과정에서 인간 트레이너가 더 나은 판단을 내릴 수 있도록 지원하여 이러한 문제를 해결합니다. AI를 활용하여 ChatGPT 의 결과를 평가하고 비평함으로써 인간 트레이너는 언어 모델을 인간의 목표에 맞추는 데 있어 향상된 지침의 혜택을 누릴 수 있습니다.

CriticGPT는 인간 리뷰어에 비해 뛰어난 버그 포착 능력을 보여주었습니다. 버그의 약 85%를 포착한 반면 인간 검토자는 25%만 포착했습니다.

CriticGPT를 교육하기 위해 인간 트레이너는 ChatGPT 에서 생성된 코드 조각에 의도적으로 버그를 삽입했습니다. 이 방법론을 통해 연구원들은 CriticGPT의 성능을 정확하게 평가할 수 있었습니다.

그러나 코드 생성 이상의 작업에 CriticGPT를 적용하고 더 복잡한 작업을 처리하려면 더 많은 연구가 필요하다는 점에 유의하는 것이 중요합니다.

CriticGPT의 현재 교육은 ChatGPT 에서 생성된 짧은 코드 조각에 중점을 두고 있습니다. OpenAI 더 길고 복잡한 작업을 효과적으로 처리하기 위해 CriticGPT를 교육하는 새로운 방법을 개발해야 할 필요성을 인식하고 있습니다.

또한 AI 모델 자체인 CriticGPT는 환각과 같은 문제에 취약하며, 제대로 해결되지 않으면 잠재적인 결과를 초래할 수 있습니다.