في الآونة الأخيرة، تم الكشف عن أن Apple وAnthropic وNvidia وSalesforce، من بين آخرين، استخدموا ترجمات YouTube لتدريب أنظمة الذكاء الاصطناعي الخاصة بهم. تتكون مجموعة البيانات هذه من ترجمات مستخرجة من أكثر من 170,000 مقطع فيديو YouTube ، تنتمي إلى أكثر من 48,000 قناة .
"لقد حصلت شركة Apple على بيانات الذكاء الاصطناعي الخاصة بها من العديد من الشركات"، وفقًا لمنشئ المحتوى Marques Brownleeone. وكشف في منشوره على X أن شركة Apple جمعت كميات هائلة من البيانات، بما في ذلك النصوص، من مقاطع فيديو YouTube .
تعد مجموعة بيانات ترجمات YouTube جزءًا من مجموعة أكبر تسمى The Pile، والتي طورتها منظمة EleutherAI غير الربحية. تهدف هذه المجموعة إلى توفير مجموعة بيانات قيمة لتطوير الذكاء الاصطناعي لمن هم خارج شركات التكنولوجيا الكبرى.
إلى جانب النصوص المكتوبة YouTube ، يشتمل The Pile على مجموعات بيانات من مصادر مختلفة، بما في ذلك الكتب ومقالات ويكيبيديا وخطب البرلمان الأوروبي وحتى رسائل البريد الإلكتروني من شركة Enron. يكتسب The Pile شعبية كبيرة، حيث استخدمته شركة Apple لتدريب نموذج OpenELM AI الخاص بها، وتم تنزيل نموذج الذكاء الاصطناعي الخاص بـ Salesforce أكثر من 86000 مرة.
الآثار الأخلاقية والقانونية
انتهاك شروط خدمة YouTube
إن استخدام محتوى YouTube ، وتحديدًا في شكل تسميات توضيحية مسروقة، لتدريب نماذج الذكاء الاصطناعي يثير تساؤلات حول الانتهاكات المحتملة لشروط خدمة YouTube .
صرح الرئيس التنفيذي لموقع YouTube ، نيل موهان، سابقًا أن استخدام محتوى الفيديو، بما في ذلك النصوص، لتدريب الذكاء الاصطناعي سيكون مخالفًا لشروط النظام الأساسي. لم تكشف OpenAI ما إذا كانت تقوم بتدريب Sora استنادًا إلى محتوى YouTube .
عدم الحصول على موافقة منشئي المحتوى
أحد المخاوف الرئيسية المحيطة باستخدام مقاطع فيديو YouTube للتدريب على الذكاء الاصطناعي هو عدم موافقة المبدعين. أعرب العديد من منشئي المحتوى عن إحباطهم إزاء الاستخدام غير المصرح به لأعمالهم، لا سيما عندما يتعلق الأمر بمقاطع الفيديو المحذوفة أو مقاطع الفيديو الخاصة بمنشئي المحتوى الذين أزالوا تواجدهم على الإنترنت منذ ذلك الحين.
أعرب المبدعون مثل ديفيد باكمان من "The David Pakman Show" وجوليا والش، الرئيس التنفيذي لشركة Complexly، عن إحباطهم، مؤكدين على الجهود والموارد التي يستثمرونها في إنتاج المحتوى.
ردود الشركات على الادعاءات
ردًا على هذه الادعاءات، صرحت المتحدثة باسم جينيفر مارتينيز من Anthropic أن استخدامهم لمجموعة بيانات The Pile يتضمن فقط "مجموعة فرعية صغيرة جدًا" من ترجمات YouTube ، ولا ينتهك شروط خدمة YouTube .