تقوم OpenAI بتطوير نموذج CriticGPT لاكتشاف الأخطاء في مخرجات كود ChatGPT

أعلنت OpenAI عن نموذج جديد للذكاء الاصطناعي يسمى CriticGPT يوم الخميس. تم تصميم هذا النموذج خصيصًا لاكتشاف الأخطاء في التعليمات البرمجية التي تم إنشاؤها بواسطة ChatGPT ، والتي من المتوقع أن تعمل كمساعد للذكاء الاصطناعي لتعزيز الرقابة البشرية على أنظمة الذكاء الاصطناعي وتحسين المواءمة بين سلوك الذكاء الاصطناعي والتوقعات البشرية.

يستخدم تطوير CriticGPT تقنية تسمى "التعلم المعزز من الملاحظات البشرية" (RLHF)، لمساعدة المراجعين البشريين في جعل مخرجات نماذج اللغة الكبيرة (LLMs) أكثر دقة.

في ورقة بحثية بعنوان "نقاد LLM يساعدون في اكتشاف أخطاء LLM"، توضح OpenAI النتائج المتعلقة بقدرة CriticGPT على اكتشاف الأخطاء.

قام الباحثون بتدريب CriticGPT على مجموعة بيانات من عينات التعليمات البرمجية التي تحتوي على أخطاء تم إدخالها عمدًا، مما يسمح لها بمعرفة كيفية تحديد أخطاء الترميز المختلفة والإبلاغ عنها. أظهرت نتائج الدراسة أن المفسرين فضلوا انتقادات CriticGPT على الانتقادات البشرية في 63 بالمائة من الحالات التي تنطوي على أخطاء تحدث بشكل طبيعي في LLM.

بالإضافة إلى ذلك، تمكنت الفرق التي تستخدم CriticGPT من كتابة انتقادات أكثر شمولاً مع تقليل معدلات الخلط مقارنة بانتقادات الذكاء الاصطناعي فقط.

تطبيق CriticGPT بعد مراجعة التعليمات البرمجية

بينما تم تطوير CriticGPT في المقام الأول لمراجعة التعليمات البرمجية، اكتشف الباحثون أن قدراتها تمتد إلى ما هو أبعد من مجرد تحديد أخطاء الترميز. لقد اختبروا CriticGPT على مجموعة فرعية من بيانات تدريب ChatGPT التي حددها المعلقون البشريون سابقًا على أنها مثالية.

والمثير للدهشة أن CriticGPT حددت الأخطاء في 24 بالمائة من هذه الحالات، والتي تم التحقق منها لاحقًا بواسطة المراجعين البشريين. يوضح هذا إمكانية تعميم النموذج على المهام غير المتعلقة بالتعليمات البرمجية ويوضح قدرته على اكتشاف الأخطاء التي يمكن أن يتجاهلها التقييم البشري.

ومع ذلك، من المهم ملاحظة أن CriticGPT لديه بعض القيود. تم تدريب النموذج على إجابات ChatGPT القصيرة نسبيًا، والتي قد لا تعده بشكل كامل لتقييم المهام الأطول والأكثر تعقيدًا التي قد تعالجها أنظمة الذكاء الاصطناعي المستقبلية.

بالإضافة إلى ذلك، على الرغم من أن CriticGPT يقلل من عمليات الخلط، إلا أنه لا يزيلها تمامًا، ولا يزال بإمكان المدربين البشريين ارتكاب أخطاء في التصنيف بسبب هذه المخرجات غير الصحيحة.

التحديات التي تواجهها فرق تدريب CriticGPT

نظرًا لأن النماذج اللغوية مثل ChatGPT أصبحت أكثر تقدمًا وتولد إجابات معقدة ومعقدة، فقد أصبح من الصعب على المدربين البشريين الحكم بدقة على جودة المخرجات.

وهذا يشكل قيدًا أساسيًا على تقنية RLHF، حيث تتجاوز النماذج معرفة وقدرات المراجعين البشريين.

يعالج CriticGPT هذا التحدي من خلال مساعدة المدربين البشريين في إصدار أحكام أفضل أثناء عملية التدريب. من خلال الاستفادة من الذكاء الاصطناعي لتقييم ونقد مخرجات ChatGPT ، يمكن للمدربين البشريين الاستفادة من التوجيه المعزز في مواءمة نموذج اللغة مع الأهداف البشرية.

أظهر CriticGPT قدرات فائقة في اكتشاف الأخطاء مقارنة بالمراجعين البشريين. لقد اكتشف ما يقرب من 85 بالمائة من الأخطاء، بينما اكتشف المراجعون البشريون 25 بالمائة فقط.

لتدريب CriticGPT، قام المدربون البشريون عمدًا بإدخال أخطاء في مقتطفات التعليمات البرمجية التي تم إنشاؤها بواسطة ChatGPT . أتاحت هذه المنهجية للباحثين تقييم أداء CriticGPT بدقة.

ومع ذلك، من المهم ملاحظة أن هناك حاجة إلى مزيد من البحث لتطبيق CriticGPT على المهام التي تتجاوز إنشاء التعليمات البرمجية والتعامل مع المهام الأكثر تعقيدًا.

يركز تدريب CriticGPT الحالي على مقتطفات التعليمات البرمجية القصيرة التي تم إنشاؤها بواسطة ChatGPT . تدرك OpenAI الحاجة إلى تطوير أساليب جديدة لتدريب CriticGPT على التعامل مع المهام الأطول والأكثر تعقيدًا بفعالية.

بالإضافة إلى ذلك، فإن CriticGPT، كونه نموذجًا للذكاء الاصطناعي في حد ذاته، فهو عرضة لمشاكل مثل الهلوسة، والتي قد يكون لها عواقب محتملة إذا لم يتم معالجتها بشكل صحيح.