最近,有消息称苹果、Anthropic、Nvidia 和 Salesforce 等公司利用YouTube字幕来训练他们的 AI 系统。该数据集包含从超过 48,000 个频道的 170,000 多个YouTube视频中提取的字幕。
内容创作者 Marques Brownleeone 表示:“苹果从多家公司获取了用于其 AI 的数据。”他在 X 帖子中透露,苹果从YouTube视频中抓取了大量数据,包括转录文本。
YouTube字幕数据集是非营利组织 EleutherAI 开发的大型数据集 The Pile 的一部分。该数据集旨在为大型科技公司以外的人士提供有价值的 AI 开发数据集。
除了YouTube转录外,The Pile 还包含来自各种来源的数据集,包括书籍、维基百科文章、欧洲议会的演讲,甚至安然的电子邮件。The Pile 越来越受欢迎,因为 Apple 用它来训练其 OpenELM AI 模型,而 Salesforce 的 AI 模型已被下载超过 86,000 次。
道德和法律影响
违反YouTube的服务条款
使用YouTube内容(特别是以抓取字幕的形式)来训练 AI 模型引发了人们对可能违反YouTube服务条款的质疑。
YouTube首席执行官尼尔·莫汉 (Neal Mohan) 此前曾表示,使用包括文字记录OpenAI的视频内容来训练 AI 违反了该平台的条款。OpenAI 尚未透露是否根据YouTube内容训练 Sora。
缺乏内容创建者的同意
关于使用YouTube视频进行 AI 训练的主要担忧之一是缺乏创作者的同意。许多内容创作者对其作品被未经授权使用表示沮丧,尤其是那些被删除的视频或那些创作者已经删除了在线内容的视频。
《大卫·帕克曼秀》的创作者大卫·帕克曼和 Complexly 首席执行官朱莉娅·沃尔什等表达了他们的不满,强调了他们在制作内容上投入的精力和资源。
公司对指控的回应
针对该指控,Anthropic 发言人詹妮弗·马丁内斯 (Jennifer Martinez) 表示,他们使用的 The Pile 数据集仅包含YouTube字幕的“一小部分”,并不违反YouTube的服务条款。