Udgivere af websteder har for nylig rejst alvorlige beskyldninger mod AI-startup'en Anthropic og anklager den for aggressiv dataskrabningspraksis.
Denne automatiserede proces involverer udtrækning af data fra websteder uden udtrykkelig tilladelse fra indholdsejerne, hvilket potentielt krænker webstedernes servicevilkår, hvilket kan have varige konsekvenser for både udgivere og AI-virksomheder.
Dataskrabning, selvom det ikke nødvendigvis er ulovligt, er blevet omstridt, når det krænker indholdsskabernes rettigheder. Da dataskrabning tillader AI-virksomheder at træne deres modeller med potentielt følsomt eller eksklusivt indhold, bliver udgivere mere og mere forsigtige.
Reaktion og handlinger fra Freelancer.com
Freelancer.com, en fremtrædende platform for freelancere og arbejdsgivere, har været særligt højrøstede i disse anklager mod Anthropic.
Administrerende direktør Matt Barrie beskrev startup'ets dataskrabningsaktiviteter som svimlende og hævdede, at hjemmesiden inden for 4 timer havde fundet 3,5 millioner besøg fra en crawler, der var linket til Anthropic. Barrie udtalte, at dette bind er "sandsynligvis omkring fem gange volumen af nummer to".
På grund af disse forstyrrende aktiviteter har Freelancer.com blokeret Anthropics crawler fuldstændigt. Barrie kritiserede virksomheden for at have manglende respekt for internetprotokoller og beskrev dataskrabningen som "uhyggelig".
For hjemmesiders del svækker sådanne aktiviteter ikke kun webstedets ydeevne, men påvirker også indtjeningen betydeligt, da den øgede trafik fra automatiserede crawlere kan overbelaste systemet og gøre det langsommere.
iFixit: Det er ikke en høflig internetadfærd
iFixit, et reparationsfællesskab og ressourcewebsted, hævdede også, at Anthropic ignorerede webstedets "gennemgang ikke"-regler, der er angivet i dets robots.txt-fil.
Kyle Wiens, administrerende direktør for iFixit, rapporterede, at Anthropics crawler fik adgang til deres servere en million gange inden for en enkelt dag, hvilket er svimlende af omfanget og forstyrrelsen af deres skrabeaktiviteter.
Robots.txt er en fil, der specificerer, hvilke websider crawlere har tilladelse til at få adgang til, og ignorering af det kan skabe store overholdelsesproblemer og skabe bredere bekymringer i branchen om at følge fastlagte protokoller.
Selvom overholdelse af robots.txt er frivillig og hovedsageligt er afhængig af at styre webcrawlere, kan tilsidesættelse af disse regler starte en bekymrende tendens i dataskrabningspraksis hos nogle AI-virksomheder, herunder Anthropic.