OpenAI พัฒนาโมเดล CriticGPT เพื่อตรวจจับข้อบกพร่องในเอาต์พุตโค้ดของ ChatGPT

OpenAI ประกาศโมเดล AI ใหม่ที่เรียกว่า CriticGPT ในวันพฤหัสบดี โมเดลนี้ได้รับการออกแบบมาเป็นพิเศษเพื่อตรวจจับจุดบกพร่องในโค้ดที่สร้างโดย ChatGPT ซึ่งคาดว่าจะทำหน้าที่เป็นผู้ช่วย AI เพื่อปรับปรุงการควบคุมดูแลระบบ AI ของมนุษย์ และปรับปรุงการจัดตำแหน่งระหว่างพฤติกรรม AI และความคาดหวังของมนุษย์

การพัฒนา CriticGPT ใช้เทคนิคที่เรียกว่า Reinforcement Learning from Human Feedback (RLHF) ซึ่งช่วยให้ผู้ตรวจสอบที่เป็นมนุษย์ทำให้ผลลัพธ์ของโมเดลภาษาขนาดใหญ่ (LLM) มีความแม่นยำมากขึ้น

ในรายงานการวิจัยชื่อ "LLM Critics Help Catch LLM Bugs" OpenAI สรุปข้อค้นพบเกี่ยวกับความสามารถในการตรวจจับจุดบกพร่องของ CriticGPT

นักวิจัยได้ฝึกอบรม CriticGPT บนชุดข้อมูลของตัวอย่างโค้ดที่มีการแทรกข้อบกพร่องโดยเจตนา ช่วยให้สามารถเรียนรู้วิธีระบุและทำเครื่องหมายข้อผิดพลาดในการเขียนโค้ดต่างๆ ผลการศึกษาพบว่า ผู้เขียนคำอธิบายประกอบชอบคำวิพากษ์วิจารณ์ของ CriticGPT มากกว่าคำวิจารณ์ของมนุษย์ใน 63 เปอร์เซ็นต์ของกรณี ที่เกี่ยวข้องกับข้อผิดพลาด LLM ที่เกิดขึ้นตามธรรมชาติ

นอกจากนี้ ทีมที่ใช้ CriticGPT ยังสามารถเขียนคำวิพากษ์วิจารณ์ที่ครอบคลุมมากขึ้น ในขณะเดียวกันก็ลดอัตราการรวมกลุ่มเมื่อเปรียบเทียบกับการวิพากษ์วิจารณ์แบบ AI เท่านั้น

การประยุกต์ใช้ CriticGPT Beyond Code Review

แม้ว่า CriticGPT ได้รับการพัฒนาเพื่อการตรวจสอบโค้ดเป็นหลัก แต่นักวิจัยค้นพบว่าความสามารถของมันขยายออกไปมากกว่าแค่การระบุข้อผิดพลาดในการเขียนโค้ด พวกเขาทดสอบ CriticGPT กับชุดย่อยของข้อมูลการฝึกอบรม ChatGPT ที่ผู้อธิบายประกอบที่เป็นมนุษย์ระบุว่าก่อนหน้านี้สมบูรณ์แบบ

น่าประหลาดใจที่ CriticGPT ระบุข้อผิดพลาดใน 24 เปอร์เซ็นต์ของกรณีเหล่านี้ ซึ่งได้รับการตรวจสอบในภายหลังโดยผู้ตรวจสอบที่เป็นมนุษย์ สิ่งนี้แสดงให้เห็นถึงศักยภาพของโมเดลในการสรุปงานที่ไม่ใช่โค้ด และแสดงให้เห็นถึงความสามารถในการตรวจจับข้อผิดพลาดที่การประเมินโดยมนุษย์อาจมองข้ามไป

อย่างไรก็ตาม โปรดทราบว่า CriticGPT มีข้อจำกัดบางประการ แบบจำลองนี้ได้รับการฝึกฝนเกี่ยวกับคำตอบ ChatGPT ที่ค่อนข้างสั้น ซึ่งอาจไม่ได้เตรียมความพร้อมอย่างเต็มที่สำหรับการประเมินงานที่ยาวและซับซ้อนกว่าที่ระบบ AI ในอนาคตอาจจัดการได้

นอกจากนี้ แม้ว่า CriticGPT จะช่วยลดความสับสนวุ่นวาย แต่ก็ไม่ได้ลบการเชื่อมต่อทั้งหมดออก และผู้ฝึกสอนที่เป็นมนุษย์ยังสามารถสร้างข้อผิดพลาดในการติดป้ายกำกับได้เนื่องจากผลลัพธ์ที่ไม่ถูกต้องเหล่านี้

ความท้าทายที่ทีมฝึกอบรม CriticGPT เผชิญ

เนื่องจากโมเดลภาษาอย่าง ChatGPT มีความก้าวหน้ามากขึ้น และสร้างคำตอบที่ซับซ้อนมากขึ้น ผู้ฝึกสอนที่เป็นมนุษย์จะตัดสินคุณภาพของผลลัพธ์ได้อย่างแม่นยำมากขึ้นเรื่อยๆ

สิ่งนี้ทำให้เกิดข้อจำกัดขั้นพื้นฐานสำหรับเทคนิค RLHF เนื่องจากแบบจำลองมีมากกว่าความรู้และความสามารถของผู้ตรวจสอบที่เป็นมนุษย์

CriticGPT จัดการกับความท้าทายนี้ด้วยการช่วยเหลือผู้ฝึกสอนที่เป็นมนุษย์ในการตัดสินที่ดีขึ้นในระหว่างกระบวนการฝึกอบรม ด้วยการใช้ประโยชน์จาก AI เพื่อประเมินและวิจารณ์ผลลัพธ์ของ ChatGPT ผู้ฝึกสอนที่เป็นมนุษย์จะได้รับประโยชน์จากคำแนะนำที่ได้รับการปรับปรุงในการปรับโมเดลภาษาให้สอดคล้องกับเป้าหมายของมนุษย์

CriticGPT แสดงให้เห็นถึงความสามารถในการตรวจจับข้อบกพร่องที่เหนือกว่าเมื่อเปรียบเทียบกับผู้ตรวจสอบที่เป็นมนุษย์ สามารถตรวจจับข้อบกพร่องได้ประมาณ 85 เปอร์เซ็นต์ ในขณะที่ผู้ตรวจสอบที่เป็นมนุษย์สามารถตรวจจับได้เพียง 25 เปอร์เซ็นต์เท่านั้น

ในการฝึก CriticGPT ผู้ฝึกสอนที่เป็นมนุษย์จงใจแทรกจุดบกพร่องลงในข้อมูลโค้ดที่สร้างโดย ChatGPT วิธีการนี้ช่วยให้นักวิจัยประเมินประสิทธิภาพของ CriticGPT ได้อย่างแม่นยำ

อย่างไรก็ตาม สิ่งสำคัญคือต้องทราบว่าจำเป็นต้องมีการวิจัยเพิ่มเติมเพื่อนำ CriticGPT ไปใช้กับงานที่นอกเหนือไปจากการสร้างโค้ด และเพื่อจัดการกับงานที่ซับซ้อนมากขึ้น

การฝึกอบรมในปัจจุบันของ CriticGPT มุ่งเน้นไปที่ข้อมูลโค้ดขนาดสั้นที่สร้างโดย ChatGPT OpenAI ตระหนักถึงความจำเป็นในการพัฒนาวิธีการใหม่ในการฝึกอบรม CriticGPT เพื่อจัดการกับงานที่ใช้เวลานานและซับซ้อนมากขึ้นอย่างมีประสิทธิภาพ

นอกจากนี้ CriticGPT ซึ่งเป็นโมเดล AI เองก็มีความเสี่ยงต่อปัญหาต่างๆ เช่น อาการประสาทหลอน ซึ่งอาจมีผลกระทบที่อาจเกิดขึ้นหากไม่ได้รับการแก้ไขอย่างเหมาะสม