最近、Apple、Anthropic、Nvidia、SalesforceなどがYouTube字幕をAIシステムのトレーニングに利用していることが明らかになりました。このデータセットは、48,000以上のチャンネルに属する170,000以上のYouTube動画から抽出された字幕で構成されています。
「Appleは自社のAI用のデータを複数の企業から入手している」とコンテンツクリエイターのマルケス・ブラウンリーオーネ氏は言う。同氏はXの投稿で、AppleがYouTube動画からトランスクリプトを含む膨大な量のデータを収集していることを明らかにした。
YouTube字幕データセットは、非営利団体 EleutherAI が開発した The Pile と呼ばれる大規模なコレクションの一部です。このコレクションは、大手テクノロジー企業以外の人々に AI 開発のための貴重なデータセットを提供することを目的としています。
YouTubeトランスクリプトに加え、The Pile には書籍、Wikipedia の記事、欧州議会のスピーチ、さらには Enron の電子メールなど、さまざまなソースからのデータ セットが含まれています。The Pile は人気が高まっており、Apple は OpenELM AI モデルのトレーニングに使用し、Salesforce の AI モデルは 86,000 回以上ダウンロードされています。
倫理的および法的影響
YouTubeの利用規約違反
YouTubeコンテンツ、特にスクレイピングされた字幕の形式を AI モデルのトレーニングに使用することは、 YouTubeの利用規約に違反する可能性があるという疑問を引き起こします。
YouTubeのCEO、ニール・モハン氏は以前、トランスクリプトを含む動画コンテンツをAIのトレーニングに利用することはプラットフォームの規約に違反すると述べていた。OpenAI OpenAI YouTubeコンテンツに基づいてSoraをトレーニングしているかどうかは明らかにしていない。
コンテンツ制作者の同意の欠如
YouTube動画を AI トレーニングに使用することに関する大きな懸念の 1 つは、作成者からの同意が得られていないことです。多くのコンテンツ作成者は、特に削除された動画や、その後オンライン プレゼンスを削除した作成者の動画の場合、作品が無断で使用されていることに不満を表明しています。
「ザ・デイヴィッド・パックマン・ショー」のデイヴィッド・パックマンやコンプレックスリーのCEO、ジュリア・ウォルシュなどのクリエイターは、コンテンツ制作に注ぐ努力とリソースを強調し、不満を表明した。
疑惑に対する企業の反応
この申し立てに対して、アンスロピックの広報担当ジェニファー・マルティネス氏は、The Pileデータセットの利用にはYouTube字幕の「ごく一部」しか含まれておらず、 YouTubeの利用規約に違反していないと述べた。