网站出版商最近对人工智能初创公司 Anthropic 提出了严重指控,指责其积极抓取数据。
这一自动化过程涉及在未经内容所有者明确许可的情况下从网站提取数据,这可能违反网站的服务条款,并可能对出版商和人工智能公司产生持久影响。
数据抓取虽然不一定违法,但一旦侵犯内容创作者的权利,就会引发争议。由于数据抓取允许人工智能公司使用可能敏感或独家的内容来训练他们的模型,出版商变得越来越谨慎。
Freelancer.com 的反应和行动
Freelancer.com 是一家著名的自由职业者和雇主平台,该网站对 Anthropic 的指控尤其直言不讳。
首席执行官马特·巴里 (Matt Barrie) 称这家初创公司的数据抓取活动令人震惊,声称在 4 小时内,该网站就发现了来自与 Anthropic 相关的爬虫程序的350 万次访问。巴里表示,这个数量“可能是第二名的五倍左右”。
由于这些破坏性活动,Freelancer.com 已完全屏蔽了 Anthropic 的爬虫。Barrie 批评该公司不尊重互联网协议,称数据抓取行为“令人发指”。
对于网站而言,此类活动不仅会削弱网站的性能,还会严重影响收入,因为自动爬虫带来的流量增加会导致系统超载并变慢。
iFixit:这不是一种礼貌的互联网行为
维修社区和资源网站 iFixit 也指控 Anthropic 忽视了该网站在 robots.txt 文件中指定的“禁止抓取”规定。
iFixit 首席执行官 Kyle Wiens 报告称,Anthropic 的爬虫在一天之内访问了他们的服务器一百万次,其抓取活动的规模和破坏性令人震惊。
Robots.txt 是一个指定允许爬虫访问哪些网页的文件,忽略该文件可能会造成严重的遵守问题,并引发业界对遵守既定协议的担忧。
尽管遵守 robots.txt 是自愿的,并且主要依赖于管理网络爬虫,但无视这些规则可能会导致包括 Anthropic 在内的一些人工智能公司的数据抓取实践出现令人不安的趋势。