網站出版商最近對人工智慧新創公司 Anthropic 提出了嚴重指控,指責其激進的資料擷取行為。
這種自動化過程涉及在未經內容所有者明確許可的情況下從網站提取數據,這可能違反網站的服務條款,這可能會對出版商和人工智慧公司產生持久的影響。
資料抓取雖然不一定違法,但當它侵犯內容創作者的權利時就會引起爭議。由於資料抓取允許人工智慧公司使用潛在的敏感或獨家內容來訓練他們的模型,出版商變得越來越謹慎。
Freelancer.com 的反應與行動
Freelancer.com 是自由工作者和雇主的重要平台,在針對 Anthropic 的這些指控中尤其直言不諱。
執行長 Matt Barrie 形容該新創公司的資料抓取活動令人震驚,聲稱在 4 小時內,該網站發現來自與 Anthropic 連結的爬蟲的350 萬次訪問。巴里表示,這個體積「可能是第二個體積的五倍左右」。
由於這些破壞性活動,Freelancer.com 已完全阻止 Anthropic 的爬蟲。巴里批評該公司不尊重網路協議,稱其資料抓取行為「令人震驚」。
對於網站而言,此類活動不僅會削弱網站的效能,還會嚴重影響收入,因為自動爬蟲帶來的流量增加會使系統超載並使其變慢。
iFixit:這不是禮貌的網路行為
維修社群和資源網站 iFixit 還聲稱,Anthropic 無視該網站在 robots.txt 檔案中規定的「禁止抓取」規定。
iFixit 執行長 Kyle Wiens 報告稱,Anthropic 的爬蟲在一天內訪問其伺服器一百萬次,其抓取活動的規模和破壞性令人震驚。
Robots.txt 是一個文件,指定允許爬蟲訪問哪些網頁,忽略該文件可能會造成嚴重的遵守問題,並引發更廣泛的行業對遵循既定協議的擔憂。
儘管遵守 robots.txt 是自願的,並且主要依賴於管理網路爬蟲,但無視這些規則可能會在包括 Anthropic 在內的一些人工智慧公司的資料抓取實踐中引發令人不安的趨勢。