OpenAI Mengembangkan Model CriticGPT untuk Menangkap Bug dalam Output Kode ChatGPT

OpenAI mengumumkan model AI baru yang disebut CriticGPT pada hari Kamis. Model ini dirancang khusus untuk menangkap bug dalam kode yang dihasilkan oleh ChatGPT , yang diharapkan dapat bertindak sebagai asisten AI untuk meningkatkan pengawasan manusia terhadap sistem AI dan meningkatkan keselarasan antara perilaku AI dan ekspektasi manusia.

Pengembangan CriticGPT menggunakan teknik yang disebut Reinforcement Learning from Human Feedback (RLHF), yang membantu peninjau manusia dalam membuat keluaran model bahasa besar (LLM) menjadi lebih akurat.

Dalam makalah penelitian bertajuk “LLM Critics Help Catch LLM Bugs,” OpenAI menguraikan temuan mengenai kemampuan deteksi bug CriticGPT.

Para peneliti melatih CriticGPT pada kumpulan data sampel kode dengan bug yang sengaja disisipkan, sehingga memungkinkannya mempelajari cara mengidentifikasi dan menandai berbagai kesalahan pengkodean. Hasil penelitian menunjukkan bahwa anotator lebih menyukai kritik CriticGPT daripada kritik manusia pada 63 persen kasus yang melibatkan kesalahan LLM yang terjadi secara alami.

Selain itu, tim yang menggunakan CriticGPT mampu menulis kritik yang lebih komprehensif sekaligus mengurangi tingkat konfabulasi dibandingkan dengan kritik yang hanya menggunakan AI.

Penerapan CriticGPT Beyond Code Review

Meskipun CriticGPT terutama dikembangkan untuk peninjauan kode, para peneliti menemukan bahwa kemampuannya lebih dari sekadar mengidentifikasi kesalahan pengkodean. Mereka menguji CriticGPT pada subkumpulan data pelatihan ChatGPT yang sebelumnya diidentifikasi sempurna oleh anotator manusia.

Yang mengejutkan, CriticGPT mengidentifikasi kesalahan pada 24 persen kasus ini, yang kemudian diverifikasi oleh peninjau manusia. Hal ini menunjukkan potensi model untuk menggeneralisasi tugas-tugas non-kode dan menunjukkan kemampuannya untuk menangkap kesalahan yang mungkin diabaikan oleh penilaian manusia.

Namun, penting untuk dicatat bahwa CriticGPT memiliki beberapa keterbatasan. Model ini dilatih berdasarkan jawaban ChatGPT yang relatif singkat, yang mungkin tidak sepenuhnya mempersiapkannya untuk mengevaluasi tugas-tugas yang lebih panjang dan lebih kompleks yang mungkin dapat ditangani oleh sistem AI di masa depan.

Selain itu, meskipun CriticGPT mengurangi konfabulasi, CriticGPT tidak sepenuhnya menghapusnya, dan pelatih manusia masih dapat membuat kesalahan pelabelan karena keluaran yang salah ini.

Tantangan yang Dihadapi Tim Pelatihan CriticGPT

Ketika model bahasa seperti ChatGPT menjadi lebih maju dan menghasilkan jawaban yang rumit dan rumit, pelatih manusia menjadi semakin sulit menilai kualitas keluaran secara akurat.

Hal ini menimbulkan keterbatasan mendasar pada teknik RLHF, karena model melampaui pengetahuan dan kemampuan peninjau manusia.

CriticGPT mengatasi tantangan ini dengan membantu pelatih manusia dalam membuat penilaian yang lebih baik selama proses pelatihan. Dengan memanfaatkan AI untuk mengevaluasi dan mengkritik keluaran ChatGPT , pelatih manusia dapat memperoleh manfaat dari peningkatan panduan dalam menyelaraskan model bahasa dengan tujuan manusia.

CriticGPT menunjukkan kemampuan menangkap bug yang lebih unggul dibandingkan dengan pengulas manusia. Ini menangkap sekitar 85 persen bug, sementara pengulas manusia hanya menangkap 25 persen.

Untuk melatih CriticGPT, pelatih manusia sengaja memasukkan bug ke dalam cuplikan kode yang dihasilkan oleh ChatGPT . Metodologi ini memungkinkan para peneliti untuk mengevaluasi kinerja CriticGPT secara akurat.

Namun, penting untuk dicatat bahwa diperlukan lebih banyak penelitian untuk menerapkan CriticGPT pada tugas-tugas di luar pembuatan kode dan untuk menangani tugas-tugas yang lebih kompleks.

Pelatihan CriticGPT saat ini berfokus pada cuplikan kode pendek yang dihasilkan oleh ChatGPT . OpenAI menyadari kebutuhan untuk mengembangkan metode baru untuk melatih CriticGPT agar dapat menangani tugas yang lebih lama dan lebih kompleks secara efektif.

Selain itu, CriticGPT, sebagai model AI, rentan terhadap masalah seperti halusinasi, yang mungkin memiliki konsekuensi potensial jika tidak ditangani dengan benar.