Son zamanlarda Apple, Anthropic, Nvidia ve Salesforce'un yapay zeka sistemlerini eğitmek için YouTube altyazılarını kullandığı ortaya çıktı. Bu veri seti , 48.000'den fazla kanala ait 170.000'den fazla YouTube videosundan çıkarılan altyazılardan oluşmaktadır.
İçerik yaratıcısı Marques Brownleeone'ye göre "Apple yapay zekası için verileri çeşitli şirketlerden aldı". X gönderisinde Apple'ın YouTube videolarından transkriptler de dahil olmak üzere büyük miktarda veriyi kazıdığını açıkladı.
YouTube Altyazı veri kümesi, kâr amacı gütmeyen kuruluş EleutherAI tarafından geliştirilen The Pile adlı daha büyük bir koleksiyonun parçasıdır. Bu koleksiyon, büyük teknoloji şirketlerinin dışındakilere yapay zeka geliştirme için değerli bir veri seti sağlamayı amaçlıyor.
The Pile, YouTube transkriptlerinin yanı sıra kitaplar, Wikipedia makaleleri, Avrupa Parlamentosu'ndan konuşmalar ve hatta Enron'dan gelen e-postalar dahil olmak üzere çeşitli kaynaklardan gelen veri kümelerini kapsar. Apple'ın OpenELM yapay zeka modelini eğitmek için kullanması ve Salesforce'un yapay zeka modelinin 86.000'den fazla indirilmesi nedeniyle Pile popülerlik kazanıyor.
Etik ve Yasal Etkiler
YouTube hizmet şartlarının ihlali
Yapay zeka modellerini eğitmek için YouTube içeriğinin, özellikle alıntı altyazı biçiminde kullanılması, YouTube hizmet şartlarının olası ihlalleri hakkında soruları gündeme getiriyor.
YouTube CEO'su Neal Mohan daha önce yapay zekayı eğitmek için transkriptler de dahil olmak üzere video içeriği kullanmanın platformun şartlarına aykırı olacağını belirtmişti. OpenAI Sora'yı YouTube içeriğine dayalı olarak eğitip eğitmediğini açıklamadı.
İçerik oluşturucuların izninin olmaması
YouTube videolarının yapay zeka eğitimi için kullanımına ilişkin en büyük endişelerden biri, içerik oluşturucuların izninin olmamasıdır. Pek çok içerik oluşturucu, özellikle silinen videolar veya çevrimiçi varlıklarını kaldıran içerik oluşturucuların videoları söz konusu olduğunda, çalışmalarının izinsiz kullanılmasından duydukları hayal kırıklığını dile getirdi.
"The David Pakman Show"dan David Pakman ve Complexly CEO'su Julia Walsh gibi yaratıcılar, içerik üretmek için harcadıkları çaba ve kaynakları vurgulayarak hayal kırıklıklarını dile getirdiler.
İddialara şirketlerin yanıtı
İddialara yanıt olarak Anthropic Sözcüsü Jennifer Martinez, The Pile veri kümesini kullanmalarının YouTube altyazılarının yalnızca "çok küçük bir alt kümesini" içerdiğini ve YouTube hizmet şartlarını ihlal etmediğini belirtti.