ล่าสุดมีการเปิดเผยว่า Apple, Anthropic, Nvidia และ Salesforce และอื่นๆ ใช้คำบรรยาย YouTube เพื่อฝึกระบบ AI ของพวกเขา ชุดข้อมูลนี้ประกอบด้วยคำบรรยายที่แยกมาจาก วิดีโอ YouTube มากกว่า 170,000 รายการจากช่องมากกว่า 48,000 ช่อง
“Apple ได้รวบรวมข้อมูลสำหรับ AI จากหลายบริษัท” ตามที่ผู้สร้างเนื้อหา Marques Brownleeone กล่าว เขาเปิดเผยในโพสต์ X ของเขาว่า Apple คัดลอกข้อมูลจำนวนมหาศาล รวมถึงการถอดเสียงจากวิดีโอ YouTube
ชุดข้อมูลคำบรรยาย YouTube เป็นส่วนหนึ่งของคอลเลกชันขนาดใหญ่ที่เรียกว่า The Pile ซึ่งพัฒนาโดยองค์กรไม่แสวงหาผลกำไร EleutherAI คอลเลกชันนี้มีจุดมุ่งหมายเพื่อมอบชุดข้อมูลอันมีค่าสำหรับการพัฒนา AI ให้กับบริษัทเทคโนโลยีขนาดใหญ่ภายนอก
นอกเหนือจากการถอดเสียง YouTube แล้ว The Pile ยังรวมชุดข้อมูลจากแหล่งต่างๆ รวมถึงหนังสือ บทความ Wikipedia สุนทรพจน์จากรัฐสภายุโรป และแม้แต่อีเมลจาก Enron The Pile กำลังได้รับความนิยม เนื่องจาก Apple ใช้เพื่อฝึกโมเดล OpenELM AI และมีการดาวน์โหลดโมเดล AI ของ Salesforce มากกว่า 86,000 ครั้ง
ผลกระทบทางจริยธรรมและกฎหมาย
การละเมิดข้อกำหนดในการให้บริการของ YouTube
การใช้เนื้อหา YouTube โดยเฉพาะในรูปแบบคำบรรยายที่คัดลอกมา เพื่อฝึกอบรมโมเดล AI ทำให้เกิดคำถามเกี่ยวกับการละเมิดข้อกำหนดในการให้บริการของ YouTube ที่อาจเกิดขึ้น
Neal Mohan CEO ของ YouTube ระบุไว้ก่อนหน้านี้ว่าการใช้เนื้อหาวิดีโอรวมถึงการถอดเสียงเพื่อฝึก AI จะขัดต่อข้อกำหนดของแพลตฟอร์ม OpenAI ไม่ได้เปิดเผยว่ากำลังฝึก Sora ตามเนื้อหา YouTube หรือไม่
ขาดความยินยอมจากผู้สร้างเนื้อหา
ข้อกังวลหลักประการหนึ่งเกี่ยวกับการใช้วิดีโอ YouTube สำหรับการฝึกอบรม AI คือการขาดความยินยอมจากผู้สร้าง ผู้สร้างเนื้อหาจำนวนมากแสดงความคับข้องใจกับการนำผลงานของตนไปใช้งานโดยไม่ได้รับอนุญาต โดยเฉพาะอย่างยิ่งเมื่อพูดถึงวิดีโอที่ถูกลบหรือจากผู้สร้างที่ได้ลบการแสดงตนทางออนไลน์ออกไปแล้ว
ผู้สร้างเช่น David Pakman จาก "The David Pakman Show" และ Julia Walsh ซีอีโอของ Complexly กล่าวถึงความคับข้องใจโดยเน้นความพยายามและทรัพยากรที่พวกเขาลงทุนในการผลิตเนื้อหา
การตอบสนองของบริษัทต่อข้อกล่าวหา
เพื่อตอบสนองต่อข้อกล่าวหา โฆษก Jennifer Martinez จาก Anthropic ระบุว่าการใช้ชุดข้อมูล The Pile ของพวกเขามีเพียง "ชุดย่อยที่น้อยมาก" ของคำบรรยาย YouTube เท่านั้น และไม่ละเมิดข้อกำหนดในการให้บริการของ YouTube