Недавно выяснилось, что Apple, Anthropic, Nvidia и Salesforce, среди прочих, использовали субтитры YouTube для обучения своих систем искусственного интеллекта. Этот набор данных состоит из субтитров, извлеченных из более чем 170 000 видеороликов YouTube , принадлежащих более чем 48 000 каналам .
«Apple получила данные для своего ИИ от нескольких компаний», — говорит создатель контента Маркес Браунлеоне. В своем посте X он рассказал, что Apple извлекла огромные объемы данных, включая расшифровки, из видео YouTube .
Набор данных субтитров YouTube является частью более крупной коллекции под названием The Pile, разработанной некоммерческой организацией EleutherAI. Цель этой коллекции — предоставить ценный набор данных для разработки ИИ тем, кто не принадлежит крупным технологическим компаниям.
Помимо стенограмм YouTube , The Pile включает в себя наборы данных из различных источников, включая книги, статьи в Википедии, выступления Европейского парламента и даже электронные письма от Enron. Pile набирает популярность, поскольку Apple использовала его для обучения своей модели искусственного интеллекта OpenELM, а модель искусственного интеллекта Salesforce была загружена более 86 000 раз.
Этические и юридические последствия
Нарушение условий обслуживания YouTube
Использование контента YouTube , особенно в виде скопированных титров, для обучения моделей ИИ вызывает вопросы о потенциальных нарушениях условий обслуживания YouTube .
Генеральный директор YouTube Нил Мохан ранее заявлял, что использование видеоконтента, включая стенограммы, для обучения ИИ противоречит условиям платформы. OpenAI не сообщила, обучает ли она Сора на основе контента YouTube .
Отсутствие согласия со стороны создателей контента
Одной из основных проблем, связанных с использованием видеороликов YouTube для обучения ИИ, является отсутствие согласия их создателей. Многие создатели контента выразили разочарование по поводу несанкционированного использования их работ, особенно когда речь идет об удаленных видео или видеороликах авторов, которые впоследствии удалили свое присутствие в Интернете.
Такие создатели, как Дэвид Пакман из «Шоу Дэвида Пакмана» и Джулия Уолш, генеральный директор Complexly, выразили свое разочарование, подчеркнув усилия и ресурсы, которые они вкладывают в создание контента.
Реакция компаний на обвинения
В ответ на обвинения пресс-секретарь Anthropic Дженнифер Мартинес заявила, что использование ими набора данных The Pile включает только «очень небольшое подмножество» субтитров YouTube и не нарушает условия обслуживания YouTube .