HIX AI
Bryder sammen
Enkel
Hjem > Opdage > Apple, Anthropic og andre teknologigiganter brugte hemmeligt YouTube videoer til at træne AI

Apple, Anthropic og andre teknologigiganter brugte hemmeligt YouTube videoer til at træne AI

Skrevet af
ArticleGPT

Gennemgået og faktatjekket af HIX.AI-teamet

2 min læstJul 18, 2024
Apple, Anthropic og andre teknologigiganter brugte hemmeligt YouTube videoer til at træne AI

I en nøddeskal

Tekniske giganter som Apple og Anthropic har angiveligt brugt YouTube -videotekster til at træne AI, hvilket vækker bekymringer om datarettigheder og rimelig brug.

For nylig er det blevet afsløret, at Apple, Anthropic, Nvidia og Salesforce blandt andre brugte YouTube undertekster til at træne deres AI-systemer. Dette datasæt består af undertekster udtrukket fra over 170.000 YouTube videoer, der tilhører mere end 48.000 kanaler .

"Apple har hentet data til deres AI fra flere virksomheder", ifølge indholdsskaber Marques Brownleeone. Han afslørede i sit X-indlæg, at Apple skrabede enorme mængder data, inklusive transskriptioner, fra YouTube -videoer.

YouTube undertekstdatasæt er en del af en større samling kaldet The Pile, udviklet af nonprofitorganisationen EleutherAI. Denne samling har til formål at levere et værdifuldt datasæt til AI-udvikling til dem uden for store teknologivirksomheder.

Sammen med YouTube transskriptionerne omfatter The Pile datasæt fra forskellige kilder, herunder bøger, Wikipedia-artikler, taler fra Europa-Parlamentet og endda e-mails fra Enron. Bunken vinder popularitet, da Apple brugte den til at træne sin OpenELM AI-model, og Salesforces AI-model er blevet downloadet mere end 86.000 gange.

Etiske og juridiske implikationer

Overtrædelse af YouTube servicevilkår

Brugen af YouTube indhold, specifikt i form af skrabet undertekster, til træning af AI-modeller rejser spørgsmål om potentielle overtrædelser af YouTube servicevilkår.

YouTube administrerende direktør Neal Mohan har tidligere udtalt, at brug af videoindhold, inklusive transskriptioner, til at træne AI ville være imod platformens vilkår. OpenAI har ikke afsløret, om det træner Sora baseret på YouTube indhold.

Manglende samtykke fra indholdsskabere

En af de største bekymringer omkring brugen af YouTube videoer til AI-træning er manglen på samtykke fra skaberne. Mange indholdsskabere udtrykte deres frustration over den uautoriserede brug af deres arbejde, især når det kommer til slettede videoer eller dem fra skabere, der siden har fjernet deres online tilstedeværelse.

Skabere som David Pakman fra "The David Pakman Show" og Julia Walsh, CEO for Complexly, gav udtryk for deres frustrationer og understregede den indsats og de ressourcer, de investerer i at producere indhold.

Virksomhedernes svar på anklagerne

Som svar på påstandene udtalte talsmand Jennifer Martinez fra Anthropic, at deres brug af The Pile-datasættet kun omfatter "en meget lille delmængde" af YouTube undertekster og ikke overtræder YouTube servicevilkår.

Baseret på 3 søgekilder

3 kilder

Apple, Anthropic, and other companies used YouTube videos to train AI

YouTube has said using creators’ content to train AI systems would violate its terms of service — so what happens if they did?

Investigation finds companies are training AI models with YouTube content without permission

YouTube video transcripts funneled into model training data without alerting content creators

YouTube creators surprised to find Apple and others trained AI on their videos

Once again, EleutherAI's data frustrates professional content creators.

På denne side

  • Etiske og juridiske implikationer
  • Virksomhedernes svar på anklagerne