Recentemente, foi revelado que Apple, Anthropic, Nvidia e Salesforce, entre outras, utilizaram legendas YouTube para treinar seus sistemas de IA. Este conjunto de dados consiste em legendas extraídas de mais de 170 mil vídeos YouTube , pertencentes a mais de 48 mil canais .
“A Apple obteve dados para sua IA de diversas empresas”, segundo o criador de conteúdo Marques Brownleeone. Ele revelou em seu post no X que a Apple extraiu grandes quantidades de dados, incluindo transcrições, de vídeos YouTube .
O conjunto de dados de legendas YouTube faz parte de uma coleção maior chamada The Pile, desenvolvida pela organização sem fins lucrativos EleutherAI. Esta coleção tem como objetivo fornecer um conjunto de dados valioso para o desenvolvimento de IA para quem está fora das grandes empresas de tecnologia.
Juntamente com as transcrições YouTube , The Pile abrange conjuntos de dados de várias fontes, incluindo livros, artigos da Wikipédia, discursos do Parlamento Europeu e até e-mails da Enron. A pilha está ganhando popularidade à medida que a Apple a usou para treinar seu modelo OpenELM AI, e o modelo AI da Salesforce foi baixado mais de 86.000 vezes.
Implicações Éticas e Legais
Violação dos termos de serviço do YouTube
O uso de conteúdo YouTube , especificamente na forma de legendas copiadas, para treinar modelos de IA levanta questões sobre possíveis violações dos termos de serviço do YouTube .
O CEO do YouTube , Neal Mohan, afirmou anteriormente que usar conteúdo de vídeo, incluindo transcrições, para treinar IA iria contra os termos da plataforma. OpenAI não revelou se está treinando Sora com base no conteúdo YouTube .
Falta de consentimento dos criadores de conteúdo
Uma das principais preocupações em torno do uso de vídeos YouTube para treinamento de IA é a falta de consentimento dos criadores. Muitos criadores de conteúdo expressaram sua frustração com o uso não autorizado de seu trabalho, especialmente quando se trata de vídeos excluídos ou de criadores que, desde então, removeram sua presença online.
Criadores como David Pakman do “The David Pakman Show” e Julia Walsh, CEO da Complexly, expressaram suas frustrações, enfatizando o esforço e os recursos que investem na produção de conteúdo.
Respostas das empresas às alegações
Em resposta às alegações, a porta-voz Jennifer Martinez da Anthropic afirmou que a utilização do conjunto de dados The Pile inclui apenas “um subconjunto muito pequeno” de legendas YouTube e não viola os termos de serviço do YouTube .