Recentemente è stato rivelato che Apple, Anthropic, Nvidia e Salesforce, tra gli altri, hanno utilizzato i sottotitoli YouTube per addestrare i loro sistemi di intelligenza artificiale. Questo set di dati è costituito da sottotitoli estratti da oltre 170.000 video YouTube , appartenenti a più di 48.000 canali .
"Apple ha acquisito dati per la propria intelligenza artificiale da diverse aziende", secondo il creatore di contenuti Marques Brownleeone. Ha rivelato nel suo post su X che Apple ha raccolto grandi quantità di dati, comprese le trascrizioni, dai video YouTube .
Il set di dati dei sottotitoli YouTube fa parte di una raccolta più ampia chiamata The Pile, sviluppata dall'organizzazione no-profit EleutherAI. Questa raccolta mira a fornire un prezioso set di dati per lo sviluppo dell'intelligenza artificiale a chi è esterno alle grandi aziende tecnologiche.
Insieme alle trascrizioni YouTube , The Pile comprende set di dati provenienti da varie fonti, inclusi libri, articoli di Wikipedia, discorsi del Parlamento europeo e persino e-mail di Enron. The Pile sta guadagnando popolarità, poiché Apple lo ha utilizzato per addestrare il suo modello AI OpenELM e il modello AI di Salesforce è stato scaricato più di 86.000 volte.
Implicazioni etiche e legali
Violazione dei termini di servizio di YouTube
L'uso dei contenuti YouTube , in particolare sotto forma di sottotitoli, per l'addestramento di modelli di intelligenza artificiale solleva interrogativi sulle potenziali violazioni dei termini di servizio di YouTube .
Il CEO di YouTube , Neal Mohan, aveva precedentemente affermato che l'utilizzo di contenuti video, comprese le trascrizioni, per addestrare l'intelligenza artificiale sarebbe contrario ai termini della piattaforma. OpenAI non ha rivelato se sta addestrando Sora sulla base dei contenuti YouTube .
Mancanza di consenso da parte dei creatori di contenuti
Una delle maggiori preoccupazioni relative all'uso dei video YouTube per la formazione sull'intelligenza artificiale è la mancanza di consenso da parte dei creatori. Molti creatori di contenuti hanno espresso la loro frustrazione per l’uso non autorizzato del loro lavoro, in particolare quando si tratta di video cancellati o di video di autori che da allora hanno rimosso la loro presenza online.
Creatori come David Pakman di "The David Pakman Show" e Julia Walsh, CEO di Complexly, hanno espresso le loro frustrazioni, sottolineando gli sforzi e le risorse che investono nella produzione di contenuti.
Le risposte delle aziende alle accuse
In risposta alle accuse, la portavoce Jennifer Martinez di Anthropic ha dichiarato che il loro utilizzo del set di dati The Pile include solo "un sottoinsieme molto piccolo" di sottotitoli YouTube e non viola i termini di servizio di YouTube .