HIX AI
坍塌
简单的
首页 > 发现 > 苹果、Anthropic 和其他科技巨头秘密使用YouTube视频训练人工智能

苹果、Anthropic 和其他科技巨头秘密使用YouTube视频训练人工智能

作者
ArticleGPT

HIX.AI 团队 审核并核实

阅读时间:4分钟Jul 18, 2024
苹果、Anthropic 和其他科技巨头秘密使用YouTube视频训练人工智能

简而言之

据称,苹果和 Anthropic 等科技巨头使用YouTube视频字幕来训练人工智能,这引发了人们对数据权和公平使用的担忧。

最近,有消息称苹果、Anthropic、Nvidia 和 Salesforce 等公司利用YouTube字幕来训练他们的 AI 系统。该数据集包含从超过 48,000 个频道的 170,000 多个YouTube视频中提取的字幕。

内容创作者 Marques Brownleeone 表示:“苹果从多家公司获取了用于其 AI 的数据。”他在 X 帖子中透露,苹果从YouTube视频中抓取了大量数据,包括转录文本。

YouTube字幕数据集是非营利组织 EleutherAI 开发的大型数据集 The Pile 的一部分。该数据集旨在为大型科技公司以外的人士提供有价值的 AI 开发数据集。

除了YouTube转录外,The Pile 还包含来自各种来源的数据集,包括书籍、维基百科文章、欧洲议会的演讲,甚至安然的电子邮件。The Pile 越来越受欢迎,因为 Apple 用它来训练其 OpenELM AI 模型,而 Salesforce 的 AI 模型已被下载超过 86,000 次。

道德和法律影响

违反YouTube的服务条款

使用YouTube内容(特别是以抓取字幕的形式)来训练 AI 模型引发了人们对可能违反YouTube服务条款的质疑。

YouTube首席执行官尼尔·莫汉 (Neal Mohan) 此前曾表示,使用包括文字记录OpenAI的视频内容来训练 AI 违反了该平台的条款。OpenAI 尚未透露是否根据YouTube内容训练 Sora。

缺乏内容创建者的同意

关于使用YouTube视频进行 AI 训练的主要担忧之一是缺乏创作者的同意。许多内容创作者对其作品被未经授权使用表示沮丧,尤其是那些被删除的视频或那些创作者已经删除了在线内容的视频。

《大卫·帕克曼秀》的创作者大卫·帕克曼和 Complexly 首席执行官朱莉娅·沃尔什等表达了他们的不满,强调了他们在制作内容上投入的精力和资源。

公司对指控的回应

针对该指控,Anthropic 发言人詹妮弗·马丁内斯 (Jennifer Martinez) 表示,他们使用的 The Pile 数据集仅包含YouTube字幕的“一小部分”,并不违反YouTube的服务条款。

基于 3 个搜索来源

3 来源

Apple, Anthropic, and other companies used YouTube videos to train AI

YouTube has said using creators’ content to train AI systems would violate its terms of service — so what happens if they did?

Investigation finds companies are training AI models with YouTube content without permission

YouTube video transcripts funneled into model training data without alerting content creators

YouTube creators surprised to find Apple and others trained AI on their videos

Once again, EleutherAI's data frustrates professional content creators.

在本页

  • 道德和法律影响
  • 公司对指控的回应