Niedawno ujawniono, że między innymi Apple, Anthropic, Nvidia i Salesforce wykorzystywały napisy YouTube do szkolenia swoich systemów AI. Ten zbiór danych składa się z napisów pochodzących z ponad 170 000 filmów YouTube , należących do ponad 48 000 kanałów .
Według twórcy treści Marquesa Brownleeone „Apple pozyskał dane do swojej sztucznej inteligencji od kilku firm”. W swoim poście X ujawnił, że Apple pobrał ogromne ilości danych, w tym transkrypcje, z filmów YouTube .
Zbiór danych YouTube Subtitles jest częścią większej kolekcji o nazwie The Pile, opracowanej przez organizację non-profit EleutherAI. Celem tej kolekcji jest zapewnienie cennego zbioru danych na potrzeby rozwoju sztucznej inteligencji osobom spoza dużych firm technologicznych.
Oprócz transkrypcji YouTube The Pile obejmuje zbiory danych z różnych źródeł, w tym książki, artykuły z Wikipedii, przemówienia Parlamentu Europejskiego, a nawet e-maile od Enronu. Stos zyskuje na popularności, ponieważ Apple użył go do szkolenia swojego modelu AI OpenELM, a model AI Salesforce został pobrany ponad 86 000 razy.
Implikacje etyczne i prawne
Naruszenie warunków korzystania z YouTube
Wykorzystywanie treści YouTube , szczególnie w formie wyciętych napisów, do uczenia modeli sztucznej inteligencji rodzi pytania dotyczące potencjalnych naruszeń warunków korzystania z usługi YouTube .
Dyrektor generalny YouTube , Neal Mohan, stwierdził wcześniej, że wykorzystywanie treści wideo, w tym transkrypcji, do szkolenia sztucznej inteligencji byłoby sprzeczne z warunkami platformy. OpenAI nie ujawniło, czy szkoli Sorę w oparciu o treści YouTube .
Brak zgody twórców treści
Jedną z głównych obaw związanych z wykorzystaniem filmów YouTube do szkolenia AI jest brak zgody twórców. Wielu twórców treści wyraziło swoją frustrację z powodu nieuprawnionego wykorzystania ich twórczości, zwłaszcza jeśli chodzi o usunięte filmy lub filmy twórców, którzy od tego czasu usunęli swoją obecność w Internecie.
Twórcy tacy jak David Pakman z „The David Pakman Show” i Julia Walsh, dyrektor generalna Complexly, wyrazili swoje frustracje, podkreślając wysiłek i zasoby, jakie inwestują w tworzenie treści.
Odpowiedzi firm na zarzuty
W odpowiedzi na zarzuty rzeczniczka Jennifer Martinez z Anthropic stwierdziła, że wykorzystanie przez nią zbioru danych The Pile obejmuje jedynie „bardzo mały podzbiór” napisów YouTube i nie narusza warunków korzystania z YouTube .