Wydawcy witryn internetowych wysunęli ostatnio poważne zarzuty pod adresem start-upu AI Anthropic, zarzucając mu agresywne praktyki gromadzenia danych.
Ten zautomatyzowany proces polega na wydobywaniu danych ze stron internetowych bez wyraźnej zgody właścicieli treści, co może skutkować naruszeniem warunków korzystania ze stron internetowych, co może mieć trwałe konsekwencje zarówno dla wydawców, jak i firm zajmujących się sztuczną inteligencją.
Skrobanie danych, choć niekoniecznie nielegalne, stało się kontrowersyjne, gdy narusza prawa twórców treści. Ponieważ skrobanie danych pozwala firmom zajmującym się sztuczną inteligencją trenować swoje modele z wykorzystaniem potencjalnie wrażliwych lub ekskluzywnych treści, wydawcy są coraz bardziej ostrożni.
Reakcja i działania z Freelancer.com
Freelancer.com, czołowa platforma dla freelancerów i pracodawców, szczególnie głośno wypowiadała się w oskarżeniach pod adresem Anthropic.
Dyrektor generalny Matt Barrie określił działania startupu w zakresie gromadzenia danych jako zdumiewające, twierdząc, że w ciągu 4 godzin witrynę odwiedziło 3,5 miliona odwiedzin robota powiązanego z Anthropic. Barrie stwierdził, że ten wolumen jest „prawdopodobnie około pięciokrotnie większy od objętości numer dwa”.
Z powodu tych destrukcyjnych działań Freelancer.com całkowicie zablokował robota Anthropic. Barrie skrytykował firmę za brak poszanowania protokołów internetowych, określając skrobanie danych jako „rażące”.
Ze strony stron internetowych takie działania nie tylko osłabiają wydajność witryny, ale także znacząco wpływają na przychody, ponieważ zwiększony ruch ze strony automatycznych robotów indeksujących może przeciążyć system i spowolnić jego działanie.
iFixit: To nie jest grzeczne zachowanie w Internecie
iFixit, społeczność zajmująca się naprawami i witryna z zasobami, również zarzuciła, że Anthropic zignorowała obowiązujące w witrynie przepisy dotyczące „zakazu indeksowania” określone w pliku robots.txt.
Kyle Wiens, dyrektor generalny iFixit, poinformował, że robot Anthropic uzyskał dostęp do ich serwerów milion razy w ciągu jednego dnia, co jest zdumiewające ze względu na skalę i destrukcyjny charakter ich działań związanych ze skrobaniem.
Robots.txt to plik określający, do których stron internetowych roboty indeksujące mogą uzyskać dostęp, a zignorowanie tego może spowodować poważne problemy z przestrzeganiem zasad i wzbudzić obawy szerszej branży w związku z przestrzeganiem ustalonych protokołów.
Chociaż zgodność z plikiem robots.txt jest dobrowolna i w przeważającej mierze opiera się na przepisach dotyczących robotów indeksujących, lekceważenie tych zasad może zapoczątkować niepokojącą tendencję w praktykach skrobania danych stosowanych przez niektóre firmy zajmujące się sztuczną inteligencją, w tym Anthropic.