HIX AI
Kollapse
Enkel
Hjem > Oppdage > Apple, Anthropic og andre teknologigiganter brukte YouTube videoer i hemmelighet for å trene AI

Apple, Anthropic og andre teknologigiganter brukte YouTube videoer i hemmelighet for å trene AI

Skrevet av
ArticleGPT

Gjennomgått og faktasjekket av HIX.AI-teamet

2 min lesingJul 18, 2024
Apple, Anthropic og andre teknologigiganter brukte YouTube videoer i hemmelighet for å trene AI

I et nøtteskall

Tekniske giganter som Apple og Anthropic har angivelig brukt YouTube videotekster for å trene opp AI, noe som vekker bekymringer om datarettigheter og rettferdig bruk.

Nylig har det blitt avslørt at blant annet Apple, Anthropic, Nvidia og Salesforce brukte YouTube undertekster for å trene opp AI-systemene sine. Dette datasettet består av undertekster hentet fra over 170 000 YouTube videoer, som tilhører mer enn 48 000 kanaler .

"Apple har hentet data for deres AI fra flere selskaper", ifølge innholdsskaper Marques Brownleeone. Han avslørte i sitt X-innlegg at Apple skrapet enorme mengder data, inkludert transkripsjoner, fra YouTube -videoer.

YouTube undertekstdatasettet er en del av en større samling kalt The Pile, utviklet av den ideelle organisasjonen EleutherAI. Denne samlingen har som mål å gi et verdifullt datasett for AI-utvikling til de utenfor store teknologiselskaper.

Sammen med YouTube -transkripsjonene omfatter The Pile datasett fra forskjellige kilder, inkludert bøker, Wikipedia-artikler, taler fra Europaparlamentet og til og med e-poster fra Enron. Pile blir stadig mer populær, ettersom Apple brukte den til å trene sin OpenELM AI-modell, og Salesforces AI-modell har blitt lastet ned mer enn 86 000 ganger.

Etiske og juridiske implikasjoner

Brudd på YouTube vilkår for bruk

Bruken av YouTube innhold, spesielt i form av skrapet bildetekst, for å trene AI-modeller reiser spørsmål om potensielle brudd på YouTube vilkår for bruk.

YouTube administrerende direktør Neal Mohan har tidligere uttalt at bruk av videoinnhold, inkludert transkripsjoner, for å trene AI ville være i strid med plattformens vilkår. OpenAI har ikke avslørt om de trener Sora basert på YouTube innhold.

Mangel på samtykke fra innholdsskapere

En av de største bekymringene rundt bruken av YouTube videoer for AI-trening er mangelen på samtykke fra skaperne. Mange innholdsskapere uttrykte sin frustrasjon over den uautoriserte bruken av arbeidet deres, spesielt når det kommer til slettede videoer eller videoer fra skapere som siden har fjernet deres tilstedeværelse på nettet.

Skapere som David Pakman fra «The David Pakman Show» og Julia Walsh, administrerende direktør i Complexly, ga uttrykk for frustrasjonene sine, og la vekt på innsatsen og ressursene de investerer i å produsere innhold.

Selskapenes svar på påstandene

Som svar på påstandene uttalte talsperson Jennifer Martinez fra Anthropic at deres bruk av The Pile-datasettet bare inkluderer "et veldig lite undersett" av YouTube undertekster, og ikke bryter med YouTube vilkår for bruk.

Basert på 3 søkekilder

3 kilder

Apple, Anthropic, and other companies used YouTube videos to train AI

YouTube has said using creators’ content to train AI systems would violate its terms of service — so what happens if they did?

Investigation finds companies are training AI models with YouTube content without permission

YouTube video transcripts funneled into model training data without alerting content creators

YouTube creators surprised to find Apple and others trained AI on their videos

Once again, EleutherAI's data frustrates professional content creators.

På denne siden

  • Etiske og juridiske implikasjoner
  • Selskapenes svar på påstandene