For nylig er det blevet afsløret, at Apple, Anthropic, Nvidia og Salesforce blandt andre brugte YouTube undertekster til at træne deres AI-systemer. Dette datasæt består af undertekster udtrukket fra over 170.000 YouTube videoer, der tilhører mere end 48.000 kanaler .
"Apple har hentet data til deres AI fra flere virksomheder", ifølge indholdsskaber Marques Brownleeone. Han afslørede i sit X-indlæg, at Apple skrabede enorme mængder data, inklusive transskriptioner, fra YouTube -videoer.
YouTube undertekstdatasæt er en del af en større samling kaldet The Pile, udviklet af nonprofitorganisationen EleutherAI. Denne samling har til formål at levere et værdifuldt datasæt til AI-udvikling til dem uden for store teknologivirksomheder.
Sammen med YouTube transskriptionerne omfatter The Pile datasæt fra forskellige kilder, herunder bøger, Wikipedia-artikler, taler fra Europa-Parlamentet og endda e-mails fra Enron. Bunken vinder popularitet, da Apple brugte den til at træne sin OpenELM AI-model, og Salesforces AI-model er blevet downloadet mere end 86.000 gange.
Etiske og juridiske implikationer
Overtrædelse af YouTube servicevilkår
Brugen af YouTube indhold, specifikt i form af skrabet undertekster, til træning af AI-modeller rejser spørgsmål om potentielle overtrædelser af YouTube servicevilkår.
YouTube administrerende direktør Neal Mohan har tidligere udtalt, at brug af videoindhold, inklusive transskriptioner, til at træne AI ville være imod platformens vilkår. OpenAI har ikke afsløret, om det træner Sora baseret på YouTube indhold.
Manglende samtykke fra indholdsskabere
En af de største bekymringer omkring brugen af YouTube videoer til AI-træning er manglen på samtykke fra skaberne. Mange indholdsskabere udtrykte deres frustration over den uautoriserede brug af deres arbejde, især når det kommer til slettede videoer eller dem fra skabere, der siden har fjernet deres online tilstedeværelse.
Skabere som David Pakman fra "The David Pakman Show" og Julia Walsh, CEO for Complexly, gav udtryk for deres frustrationer og understregede den indsats og de ressourcer, de investerer i at producere indhold.
Virksomhedernes svar på anklagerne
Som svar på påstandene udtalte talsmand Jennifer Martinez fra Anthropic, at deres brug af The Pile-datasættet kun omfatter "en meget lille delmængde" af YouTube undertekster og ikke overtræder YouTube servicevilkår.