Nylig har det blitt avslørt at blant annet Apple, Anthropic, Nvidia og Salesforce brukte YouTube undertekster for å trene opp AI-systemene sine. Dette datasettet består av undertekster hentet fra over 170 000 YouTube videoer, som tilhører mer enn 48 000 kanaler .
"Apple har hentet data for deres AI fra flere selskaper", ifølge innholdsskaper Marques Brownleeone. Han avslørte i sitt X-innlegg at Apple skrapet enorme mengder data, inkludert transkripsjoner, fra YouTube -videoer.
YouTube undertekstdatasettet er en del av en større samling kalt The Pile, utviklet av den ideelle organisasjonen EleutherAI. Denne samlingen har som mål å gi et verdifullt datasett for AI-utvikling til de utenfor store teknologiselskaper.
Sammen med YouTube -transkripsjonene omfatter The Pile datasett fra forskjellige kilder, inkludert bøker, Wikipedia-artikler, taler fra Europaparlamentet og til og med e-poster fra Enron. Pile blir stadig mer populær, ettersom Apple brukte den til å trene sin OpenELM AI-modell, og Salesforces AI-modell har blitt lastet ned mer enn 86 000 ganger.
Etiske og juridiske implikasjoner
Brudd på YouTube vilkår for bruk
Bruken av YouTube innhold, spesielt i form av skrapet bildetekst, for å trene AI-modeller reiser spørsmål om potensielle brudd på YouTube vilkår for bruk.
YouTube administrerende direktør Neal Mohan har tidligere uttalt at bruk av videoinnhold, inkludert transkripsjoner, for å trene AI ville være i strid med plattformens vilkår. OpenAI har ikke avslørt om de trener Sora basert på YouTube innhold.
Mangel på samtykke fra innholdsskapere
En av de største bekymringene rundt bruken av YouTube videoer for AI-trening er mangelen på samtykke fra skaperne. Mange innholdsskapere uttrykte sin frustrasjon over den uautoriserte bruken av arbeidet deres, spesielt når det kommer til slettede videoer eller videoer fra skapere som siden har fjernet deres tilstedeværelse på nettet.
Skapere som David Pakman fra «The David Pakman Show» og Julia Walsh, administrerende direktør i Complexly, ga uttrykk for frustrasjonene sine, og la vekt på innsatsen og ressursene de investerer i å produsere innhold.
Selskapenes svar på påstandene
Som svar på påstandene uttalte talsperson Jennifer Martinez fra Anthropic at deres bruk av The Pile-datasettet bare inkluderer "et veldig lite undersett" av YouTube undertekster, og ikke bryter med YouTube vilkår for bruk.