OpenAI Perşembe günü CriticGPT adlı yeni bir AI modelini duyurdu. Bu model, yapay zeka sistemlerinin insan gözetimini geliştirmek ve yapay zeka davranışı ile insan beklentileri arasındaki uyumu geliştirmek için bir yapay zeka asistanı olarak görev yapması beklenen ChatGPT tarafından oluşturulan koddaki hataları yakalamak için özel olarak tasarlanmıştır.
CriticGPT'nin geliştirilmesinde, İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF) adı verilen bir teknik kullanılarak, insan incelemecilerin büyük dil modellerinin (LLM'ler) çıktılarını daha doğru hale getirmesine yardımcı olunur.
OpenAI "LLM Eleştirmenleri LLM Hatalarını Yakalamaya Yardım Ediyor" başlıklı bir araştırma makalesinde, CriticGPT'nin hata tespit yeteneğine ilişkin bulguları özetlemektedir.
Araştırmacılar CriticGPT'yi kasıtlı olarak eklenen hataların bulunduğu kod örneklerinden oluşan bir veri kümesi üzerinde eğiterek, çeşitli kodlama hatalarının nasıl tanımlanacağını ve işaretleneceğini öğrenmesine olanak sağladı. Araştırmanın sonuçları, doğal olarak meydana gelen LLM hatalarını içeren vakaların yüzde 63'ünde yorumcuların insan eleştirileri yerine CriticGPT'nin eleştirilerini tercih ettiğini gösterdi.
Ayrıca CriticGPT kullanan ekipler, yalnızca yapay zekaya yönelik eleştirilerle karşılaştırıldığında konfabülasyon oranlarını azaltırken daha kapsamlı eleştiriler yazabildi.
CriticGPT Beyond Code Review Uygulaması
CriticGPT öncelikle kod incelemesi için geliştirilmiş olsa da araştırmacılar, yeteneklerinin yalnızca kodlama hatalarını tanımlamanın ötesine geçtiğini keşfettiler. CriticGPT'yi, insan açıklamacıların daha önce mükemmel olarak tanımladığı bir ChatGPT eğitim verileri alt kümesi üzerinde test ettiler.
Şaşırtıcı bir şekilde, CriticGPT bu vakaların yüzde 24'ünde hatalar tespit etti ve bunlar daha sonra insan incelemeciler tarafından doğrulandı. Bu, modelin kod dışı görevlere genelleme potansiyelini gösterir ve insan değerlendirmesinin gözden kaçırabileceği hataları yakalama yeteneğini gösterir.
Ancak CriticGPT'nin bazı sınırlamaları olduğunu unutmamak önemlidir. Model, nispeten kısa ChatGPT yanıtları üzerine eğitildi; bu yanıtlar, onu gelecekteki yapay zeka sistemlerinin üstesinden gelebileceği daha uzun ve daha karmaşık görevleri değerlendirmeye tam olarak hazırlayamayabilir.
Ayrıca CriticGPT, konfabülasyonları azaltırken, tamamen ortadan kaldırmaz ve insan eğitmenler yine de bu hatalı çıktılar nedeniyle etiketleme hataları yapabilir.
CriticGPT Eğitim Ekiplerinin Karşılaştığı Zorluklar
ChatGPT gibi dil modelleri daha gelişmiş hale geldikçe ve karmaşık ve karmaşık cevaplar ürettikçe, insan eğitmenlerin çıktıların kalitesini doğru bir şekilde yargılaması giderek zorlaşıyor.
Modeller insan incelemecilerin bilgi ve yeteneklerini aştığı için bu, RLHF tekniğine temel bir sınırlama getirmektedir.
CriticGPT, insan eğitmenlerin eğitim süreci sırasında daha iyi karar vermelerine yardımcı olarak bu zorluğun üstesinden gelir. İnsan eğitmenleri, ChatGPT çıktılarını değerlendirmek ve eleştirmek için yapay zekadan yararlanarak, dil modelini insan hedefleriyle uyumlu hale getirme konusunda gelişmiş rehberlikten yararlanabilir.
CriticGPT, insan incelemecilerle karşılaştırıldığında üstün hata yakalama yetenekleri sergiledi. Hataların yaklaşık yüzde 85'ini yakalarken, insan incelemeciler yalnızca yüzde 25'ini yakaladı.
CriticGPT'yi eğitmek için insan eğitmenler, ChatGPT tarafından oluşturulan kod parçacıklarına kasıtlı olarak hatalar ekledi. Bu metodoloji araştırmacıların CriticGPT'nin performansını doğru bir şekilde değerlendirmesine olanak sağladı.
Ancak CriticGPT'yi kod oluşturmanın ötesindeki görevlere uygulamak ve daha karmaşık görevleri yerine getirmek için daha fazla araştırmaya ihtiyaç olduğunu belirtmek önemlidir.
CriticGPT'nin mevcut eğitimi ChatGPT tarafından oluşturulan kısa kod parçacıklarına odaklandı. OpenAI CriticGPT'yi daha uzun ve daha karmaşık görevleri etkili bir şekilde ele alacak şekilde eğitmek için yeni yöntemler geliştirme ihtiyacının farkındadır.
Ek olarak, kendisi de bir yapay zeka modeli olan CriticGPT, halüsinasyon gibi sorunlara karşı hassastır ve bu sorunlar, doğru şekilde ele alınmadığı takdirde potansiyel sonuçlar doğurabilir.