最近,有消息稱,蘋果、Anthropic、Nvidia 和 Salesforce 等公司利用YouTube字幕來訓練他們的人工智慧系統。該資料集包含從超過170,000 個YouTube影片中提取的字幕,屬於超過 48,000 個頻道。
內容創作者 Marques Brownleeone 表示,「蘋果公司已經從多家公司取得了人工智慧數據」。他在 X 貼文中透露,蘋果從YouTube影片中抓取了大量數據,包括文字記錄。
YouTube字幕資料集是名為 The Pile 的更大集合的一部分,該集合由非營利組織 EleutherAI 開發。該集合旨在為大型科技公司以外的人員提供用於人工智慧開發的有價值的數據集。
除了YouTube記錄之外,The Pile 還包含來自各種來源的資料集,包括書籍、維基百科文章、歐洲議會的演講,甚至來自安然公司的電子郵件。 Pile 越來越受歡迎,因為 Apple 用它來訓練其 OpenELM AI 模型,Salesforce 的 AI 模型已被下載超過 86,000 次。
道德和法律影響
違反YouTube服務條款
使用YouTube內容(特別是以抓取字幕的形式)來訓練 AI 模型引發了可能違反YouTube服務條款的問題。
YouTube執行長 Neal Mohan 先前表示,使用包括文字記錄在內的影片內容來訓練人工智慧將違反該平台的條款。 OpenAI尚未透露是否正在基於YouTube內容訓練 Sora。
缺乏內容創作者的同意
使用YouTube影片進行人工智慧訓練的主要擔憂之一是缺乏創作者的同意。許多內容創作者對未經授權使用他們的作品表示沮喪,特別是當涉及到已刪除的影片或創作者已刪除其線上存在的影片時。
《The David Pakman Show》的 David Pakman 和 Complexly 執行長 Julia Walsh 等創作者表達了他們的挫敗感,強調他們在製作內容方面投入的精力和資源。
公司對指控的回應
針對這些指控,Anthropic 發言人 Jennifer Martinez 表示,他們對 The Pile 資料集的利用僅包括YouTube字幕的“一小部分”,並不違反YouTube的服務條款。