HIX AI
崩壊
単純
ホーム > 発見する > Apple、Anthropic、その他のテック大手がYouTube動画を密かに利用してAIを訓練

Apple、Anthropic、その他のテック大手がYouTube動画を密かに利用してAIを訓練

によって書かれた
ArticleGPT

HIX.AI チーム によるレビューと事実確認済み

6分で読むJul 18, 2024
Apple、Anthropic、その他のテック大手がYouTube動画を密かに利用してAIを訓練

一言で言えば

AppleやAnthropicなどのテクノロジー大手は、 YouTube動画のキャプションをAIのトレーニングに使用していたとされ、データの権利と公正使用に関する懸念が生じている。

最近、Apple、Anthropic、Nvidia、SalesforceなどがYouTube字幕をAIシステムのトレーニングに利用していることが明らかになりました。このデータセットは、48,000以上のチャンネルに属する170,000以上のYouTube動画から抽出された字幕で構成されています。

「Appleは自社のAI用のデータを複数の企業から入手している」とコンテンツクリエイターのマルケス・ブラウンリーオーネ氏は言う。同氏はXの投稿で、AppleがYouTube動画からトランスクリプトを含む膨大な量のデータを収集していることを明らかにした。

YouTube字幕データセットは、非営利団体 EleutherAI が開発した The Pile と呼ばれる大規模なコレクションの一部です。このコレクションは、大手テクノロジー企業以外の人々に AI 開発のための貴重なデータセットを提供することを目的としています。

YouTubeトランスクリプトに加え、The Pile には書籍、Wikipedia の記事、欧州議会のスピーチ、さらには Enron の電子メールなど、さまざまなソースからのデータ セットが含まれています。The Pile は人気が高まっており、Apple は OpenELM AI モデルのトレーニングに使用し、Salesforce の AI モデルは 86,000 回以上ダウンロードされています。

倫理的および法的影響

YouTubeの利用規約違反

YouTubeコンテンツ、特にスクレイピングされた字幕の形式を AI モデルのトレーニングに使用することは、 YouTubeの利用規約に違反する可能性があるという疑問を引き起こします。

YouTubeのCEO、ニール・モハン氏は以前、トランスクリプトを含む動画コンテンツをAIのトレーニングに利用することはプラットフォームの規約に違反すると述べていた。OpenAI OpenAI YouTubeコンテンツに基づいてSoraをトレーニングしているかどうかは明らかにしていない。

コンテンツ制作者の同意の欠如

YouTube動画を AI トレーニングに使用することに関する大きな懸念の 1 つは、作成者からの同意が得られていないことです。多くのコンテンツ作成者は、特に削除された動画や、その後オンライン プレゼンスを削除した作成者の動画の場合、作品が無断で使用されていることに不満を表明しています。

「ザ・デイヴィッド・パックマン・ショー」のデイヴィッド・パックマンやコンプレックスリーのCEO、ジュリア・ウォルシュなどのクリエイターは、コンテンツ制作に注ぐ努力とリソースを強調し、不満を表明した。

疑惑に対する企業の反応

この申し立てに対して、アンスロピックの広報担当ジェニファー・マルティネス氏は、The Pileデータセットの利用にはYouTube字幕の「ごく一部」しか含まれておらず、 YouTubeの利用規約に違反していないと述べた。

3 個の検索ソースに基づく

3 ソース

Apple, Anthropic, and other companies used YouTube videos to train AI

YouTube has said using creators’ content to train AI systems would violate its terms of service — so what happens if they did?

Investigation finds companies are training AI models with YouTube content without permission

YouTube video transcripts funneled into model training data without alerting content creators

YouTube creators surprised to find Apple and others trained AI on their videos

Once again, EleutherAI's data frustrates professional content creators.

このページについて

  • 倫理的および法的影響
  • 疑惑に対する企業の反応