ウェブサイトの発行者は最近、AIスタートアップ企業Anthropicに対して、積極的なデータスクレイピング行為を行っているとして重大な申し立てを行った。
この自動化されたプロセスには、コンテンツ所有者の明示的な許可なしにウェブサイトからデータを抽出することが含まれており、ウェブサイトの利用規約に違反する可能性があり、出版社と AI 企業の両方に永続的な影響を及ぼす可能性があります。
データスクレイピングは必ずしも違法ではありませんが、コンテンツ作成者の権利を侵害する場合には物議を醸すものとなっています。データスクレイピングにより、AI 企業は機密性の高いコンテンツや独占コンテンツを使用してモデルをトレーニングできるため、出版社はますます慎重になっています。
Freelancer.com からの反応と行動
フリーランサーと雇用者のための有名なプラットフォームであるFreelancer.comは、Anthropicに対するこうした非難を特に声高に訴えてきた。
CEO のマット・バリーは、このスタートアップ企業のデータスクレイピング活動は驚異的だと述べ、4 時間以内にウェブサイトが Anthropic にリンクされたクローラーからの350 万回のアクセスを発見したと主張した。バリーは、この量は「おそらく 2 番目の量の約 5 倍」であると述べた。
これらの妨害行為のため、Freelancer.com は Anthropic のクローラーを完全にブロックしました。Barrie 氏は、同社がインターネット プロトコルを軽視していると批判し、データ スクレイピングは「ひどい」ものだと述べました。
ウェブサイト側にとって、このような活動はサイトのパフォーマンスを低下させるだけでなく、自動クローラーからのトラフィックの増加によってシステムに過負荷がかかり、速度が低下する可能性があるため、収益にも大きな影響を与えます。
iFixit: それはインターネット上の礼儀正しい行動ではない
修理コミュニティおよびリソースウェブサイトであるiFixitも、Anthropicがrobots.txtファイルに指定されているサイトの「クロール禁止」規定を無視していると主張した。
iFixit の CEO カイル・ウィーンズ氏は、Anthropic のクローラーが 1 日で同社のサーバーに 100 万回アクセスしたと報告しており、これは同社のスクレイピング活動の規模と破壊力を考えると驚異的だ。
Robots.txt は、クローラーがアクセスできる Web ページを指定するファイルであり、これを無視すると、重大な遵守上の問題が発生し、設定されたプロトコルに従うことに関して業界全体に懸念が生じる可能性があります。
robots.txt への準拠は任意であり、主に Web クローラーの制御に頼っていますが、これらのルールを無視すると、Anthropic を含む一部の AI 企業のデータ スクレイピング慣行に問題のある傾向が生じる可能性があります。