Recientemente, se reveló que Apple, Anthropic, Nvidia y Salesforce, entre otros, utilizaron subtítulos YouTube para entrenar sus sistemas de inteligencia artificial. Este conjunto de datos consta de subtítulos extraídos de más de 170.000 vídeos YouTube , pertenecientes a más de 48.000 canales .
"Apple ha obtenido datos para su IA de varias empresas", según el creador de contenidos Marques Brownleeone. Reveló en su publicación X que Apple extrajo grandes cantidades de datos, incluidas transcripciones, de videos YouTube .
El conjunto de datos de subtítulos YouTube forma parte de una colección más amplia llamada The Pile, desarrollada por la organización sin fines de lucro EleutherAI. Esta colección tiene como objetivo proporcionar un conjunto de datos valioso para el desarrollo de la IA a quienes no pertenecen a las grandes empresas de tecnología.
Junto con las transcripciones YouTube , The Pile abarca conjuntos de datos de diversas fuentes, incluidos libros, artículos de Wikipedia, discursos del Parlamento Europeo e incluso correos electrónicos de Enron. Pile está ganando popularidad, ya que Apple lo utilizó para entrenar su modelo de IA OpenELM y el modelo de IA de Salesforce se ha descargado más de 86.000 veces.
Implicaciones éticas y legales
Violacion de los terminos de servicio de YouTube
El uso de contenido YouTube , específicamente en forma de subtítulos extraídos, para entrenar modelos de IA plantea dudas sobre posibles violaciones de los términos de servicio de YouTube .
El director ejecutivo de YouTube , Neal Mohan, declaró anteriormente que utilizar contenido de vídeo, incluidas transcripciones, para entrenar la IA iría en contra de los términos de la plataforma. OpenAI no ha revelado si está entrenando a Sora basándose en el contenido YouTube .
Falta de consentimiento de los creadores de contenido
Una de las principales preocupaciones en torno al uso de vídeos YouTube para el entrenamiento de IA es la falta de consentimiento de los creadores. Muchos creadores de contenido expresaron su frustración por el uso no autorizado de su trabajo, particularmente cuando se trata de videos eliminados o de creadores que desde entonces eliminaron su presencia en línea.
Creadores como David Pakman de "The David Pakman Show" y Julia Walsh, directora ejecutiva de Complexly, expresaron sus frustraciones, enfatizando el esfuerzo y los recursos que invierten en la producción de contenidos.
Respuestas de las empresas a las acusaciones
En respuesta a las acusaciones, la portavoz Jennifer Martínez de Anthropic declaró que su utilización del conjunto de datos de The Pile sólo incluye "un subconjunto muy pequeño" de subtítulos YouTube y no viola los términos de servicio de YouTube .