HIX AI
Crollo
Semplice
Casa > Scoprire > Apple, Anthropic e altri giganti della tecnologia hanno utilizzato segretamente video YouTube per addestrare l'intelligenza artificiale

Apple, Anthropic e altri giganti della tecnologia hanno utilizzato segretamente video YouTube per addestrare l'intelligenza artificiale

Scritto da
ArticleGPT

Revisionato e verificato dal team HIX.AI

2 minuti di letturaJul 18, 2024
Apple, Anthropic e altri giganti della tecnologia hanno utilizzato segretamente video YouTube per addestrare l'intelligenza artificiale

In poche parole

I giganti della tecnologia come Apple e Anthropic avrebbero utilizzato i sottotitoli dei video YouTube per addestrare l’intelligenza artificiale, sollevando preoccupazioni sui diritti dei dati e sul fair use.

Recentemente è stato rivelato che Apple, Anthropic, Nvidia e Salesforce, tra gli altri, hanno utilizzato i sottotitoli YouTube per addestrare i loro sistemi di intelligenza artificiale. Questo set di dati è costituito da sottotitoli estratti da oltre 170.000 video YouTube , appartenenti a più di 48.000 canali .

"Apple ha acquisito dati per la propria intelligenza artificiale da diverse aziende", secondo il creatore di contenuti Marques Brownleeone. Ha rivelato nel suo post su X che Apple ha raccolto grandi quantità di dati, comprese le trascrizioni, dai video YouTube .

Il set di dati dei sottotitoli YouTube fa parte di una raccolta più ampia chiamata The Pile, sviluppata dall'organizzazione no-profit EleutherAI. Questa raccolta mira a fornire un prezioso set di dati per lo sviluppo dell'intelligenza artificiale a chi è esterno alle grandi aziende tecnologiche.

Insieme alle trascrizioni YouTube , The Pile comprende set di dati provenienti da varie fonti, inclusi libri, articoli di Wikipedia, discorsi del Parlamento europeo e persino e-mail di Enron. The Pile sta guadagnando popolarità, poiché Apple lo ha utilizzato per addestrare il suo modello AI OpenELM e il modello AI di Salesforce è stato scaricato più di 86.000 volte.

Implicazioni etiche e legali

Violazione dei termini di servizio di YouTube

L'uso dei contenuti YouTube , in particolare sotto forma di sottotitoli, per l'addestramento di modelli di intelligenza artificiale solleva interrogativi sulle potenziali violazioni dei termini di servizio di YouTube .

Il CEO di YouTube , Neal Mohan, aveva precedentemente affermato che l'utilizzo di contenuti video, comprese le trascrizioni, per addestrare l'intelligenza artificiale sarebbe contrario ai termini della piattaforma. OpenAI non ha rivelato se sta addestrando Sora sulla base dei contenuti YouTube .

Mancanza di consenso da parte dei creatori di contenuti

Una delle maggiori preoccupazioni relative all'uso dei video YouTube per la formazione sull'intelligenza artificiale è la mancanza di consenso da parte dei creatori. Molti creatori di contenuti hanno espresso la loro frustrazione per l’uso non autorizzato del loro lavoro, in particolare quando si tratta di video cancellati o di video di autori che da allora hanno rimosso la loro presenza online.

Creatori come David Pakman di "The David Pakman Show" e Julia Walsh, CEO di Complexly, hanno espresso le loro frustrazioni, sottolineando gli sforzi e le risorse che investono nella produzione di contenuti.

Le risposte delle aziende alle accuse

In risposta alle accuse, la portavoce Jennifer Martinez di Anthropic ha dichiarato che il loro utilizzo del set di dati The Pile include solo "un sottoinsieme molto piccolo" di sottotitoli YouTube e non viola i termini di servizio di YouTube .

Basato su 3 fonti di ricerca

3 fonti

Apple, Anthropic, and other companies used YouTube videos to train AI

YouTube has said using creators’ content to train AI systems would violate its terms of service — so what happens if they did?

Investigation finds companies are training AI models with YouTube content without permission

YouTube video transcripts funneled into model training data without alerting content creators

YouTube creators surprised to find Apple and others trained AI on their videos

Once again, EleutherAI's data frustrates professional content creators.

Su questa pagina

  • Implicazioni etiche e legali
  • Le risposte delle aziende alle accuse