Baru-baru ini terungkap bahwa Apple, Anthropic, Nvidia, dan Salesforce antara lain memanfaatkan subtitle YouTube untuk melatih sistem AI mereka. Kumpulan data ini terdiri dari subtitel yang diambil dari lebih dari 170.000 video YouTube , milik lebih dari 48.000 saluran .
“Apple mengambil data untuk AI mereka dari beberapa perusahaan”, menurut pembuat konten Marques Brownleeone. Dia mengungkapkan dalam postingan X-nya bahwa Apple mengambil sejumlah besar data, termasuk transkrip, dari video YouTube .
Kumpulan data Subtitel YouTube adalah bagian dari koleksi lebih besar yang disebut The Pile, yang dikembangkan oleh organisasi nirlaba EleutherAI. Koleksi ini bertujuan untuk menyediakan kumpulan data berharga untuk pengembangan AI bagi pihak-pihak di luar perusahaan teknologi besar.
Selain transkrip YouTube , The Pile mencakup kumpulan data dari berbagai sumber, termasuk buku, artikel Wikipedia, pidato dari Parlemen Eropa, dan bahkan email dari Enron. Pile semakin populer karena Apple menggunakannya untuk melatih model AI OpenELM-nya, dan model AI Salesforce telah diunduh lebih dari 86.000 kali.
Implikasi Etis dan Hukum
Pelanggaran terhadap persyaratan layanan YouTube
Penggunaan konten YouTube , khususnya dalam bentuk teks tergores, untuk melatih model AI menimbulkan pertanyaan tentang potensi pelanggaran terhadap persyaratan layanan YouTube .
CEO YouTube Neal Mohan sebelumnya menyatakan bahwa penggunaan konten video, termasuk transkrip, untuk melatih AI akan melanggar ketentuan platform. OpenAI belum mengungkapkan apakah mereka melatih Sora berdasarkan konten YouTube .
Kurangnya persetujuan dari pembuat konten
Salah satu kekhawatiran utama seputar penggunaan video YouTube untuk pelatihan AI adalah kurangnya persetujuan dari pembuatnya. Banyak pembuat konten mengungkapkan rasa frustrasi mereka atas penggunaan karya mereka secara tidak sah, terutama terkait dengan video yang dihapus atau video milik pembuat konten yang telah menghapus kehadiran online mereka.
Pembuat konten seperti David Pakman dari "The David Pakman Show" dan Julia Walsh, CEO Complexly, menyuarakan rasa frustrasi mereka, menekankan upaya dan sumber daya yang mereka investasikan dalam memproduksi konten.
Tanggapan perusahaan terhadap tuduhan tersebut
Menanggapi tuduhan tersebut, Juru Bicara Anthropic Jennifer Martinez menyatakan bahwa pemanfaatan kumpulan data The Pile hanya mencakup “sebagian kecil” subtitle YouTube , dan tidak melanggar persyaratan layanan YouTube .