Récemment, il a été révélé qu'Apple, Anthropic, Nvidia et Salesforce, entre autres, utilisaient les sous-titres YouTube pour entraîner leurs systèmes d'IA. Cet ensemble de données est constitué de sous-titres extraits de plus de 170 000 vidéos YouTube , appartenant à plus de 48 000 chaînes .
"Apple a obtenu des données pour son IA auprès de plusieurs sociétés", selon le créateur de contenu Marques Brownleeone. Il a révélé dans son article X qu'Apple avait récupéré de grandes quantités de données, y compris des transcriptions, des vidéos YouTube .
L'ensemble de données YouTube Subtitles fait partie d'une collection plus vaste appelée The Pile, développée par l'organisation à but non lucratif EleutherAI. Cette collection vise à fournir un ensemble de données précieux pour le développement de l’IA à ceux extérieurs aux grandes entreprises technologiques.
Outre les transcriptions YouTube , The Pile englobe des ensembles de données provenant de diverses sources, notamment des livres, des articles Wikipédia, des discours du Parlement européen et même des courriels d'Enron. Le Pile gagne en popularité, car Apple l'a utilisé pour entraîner son modèle d'IA OpenELM, et le modèle d'IA de Salesforce a été téléchargé plus de 86 000 fois.
Implications éthiques et juridiques
Violation des conditions d'utilisation de YouTube
L'utilisation de contenu YouTube , notamment sous la forme de sous-titres récupérés, pour entraîner des modèles d'IA soulève des questions sur de potentielles violations des conditions d'utilisation de YouTube .
Le PDG de YouTube , Neal Mohan, a précédemment déclaré que l'utilisation de contenu vidéo, y compris les transcriptions, pour entraîner l'IA irait à l'encontre des conditions de la plateforme. OpenAI n'a pas révélé s'il formait Sora sur la base du contenu YouTube .
Absence de consentement des créateurs de contenu
L’une des principales préoccupations concernant l’utilisation de vidéos YouTube pour la formation en IA est le manque de consentement des créateurs. De nombreux créateurs de contenu ont exprimé leur frustration face à l'utilisation non autorisée de leur travail, notamment lorsqu'il s'agit de vidéos supprimées ou de celles de créateurs qui ont depuis supprimé leur présence en ligne.
Des créateurs tels que David Pakman de « The David Pakman Show » et Julia Walsh, PDG de Complexly, ont exprimé leurs frustrations, soulignant les efforts et les ressources qu'ils investissent dans la production de contenu.
Réponses des entreprises aux allégations
En réponse aux allégations, la porte-parole Jennifer Martinez d'Anthropic a déclaré que leur utilisation de l'ensemble de données The Pile ne comprend qu'« un très petit sous-ensemble » de sous-titres YouTube et ne viole pas les conditions d'utilisation de YouTube .