Nettstedsutgivere har nylig fremmet alvorlige anklager mot AI-oppstarten Anthropic, og anklaget den for aggressiv dataskrapingspraksis.
Denne automatiserte prosessen innebærer å trekke ut data fra nettsteder uten eksplisitt tillatelse fra innholdseierne, noe som potensielt bryter vilkårene for bruk av nettsteder, noe som kan ha varige konsekvenser for både utgivere og AI-selskaper.
Dataskraping, selv om det ikke nødvendigvis er ulovlig, har blitt omstridt når det krenker rettighetene til innholdsskapere. Ettersom dataskraping tillater AI-selskaper å trene modellene sine med potensielt sensitivt eller eksklusivt innhold, blir utgivere stadig mer forsiktige.
Reaksjon og handlinger fra Freelancer.com
Freelancer.com, en fremtredende plattform for frilansere og arbeidsgivere, har vært spesielt vokal i disse anklagene mot Anthropic.
Administrerende direktør Matt Barrie beskrev oppstartens dataskrapingsaktiviteter som svimlende, og hevdet at nettstedet i løpet av 4 timer hadde funnet 3,5 millioner besøk fra en crawler knyttet til Anthropic. Barrie uttalte at dette volumet er "sannsynligvis omtrent fem ganger volumet av nummer to".
På grunn av disse forstyrrende aktivitetene har Freelancer.com blokkert Anthropics crawler fullstendig. Barrie kritiserte selskapet for å ikke respektere internettprotokoller, og beskrev dataskrapingen som "grusom."
For nettsteder sin del, svekker slike aktiviteter ikke bare nettstedets ytelse, men påvirker også inntektene betydelig, ettersom den økte trafikken fra automatiserte crawlere kan overbelaste systemet og gjøre det tregere.
iFixit: Det er ikke en høflig internettoppførsel
iFixit, et reparasjonsfellesskap og ressursnettsted, påsto også at Anthropic ignorerte nettstedets "ikke gjennomsøk"-forskrifter spesifisert i robots.txt-filen.
Kyle Wiens, administrerende direktør i iFixit, rapporterte at Anthropics robotsøkeprogram fikk tilgang til serverne deres en million ganger i løpet av en enkelt dag, noe som er svimlende av omfanget og forstyrrelsen av skrapingaktivitetene deres.
Robots.txt er en fil som spesifiserer hvilke nettsider som søkeroboter har tillatelse til å få tilgang til, og ignorering av det kan skape store overholdelsesproblemer og skape bredere bekymringer i industrien om å følge fastsatte protokoller.
Selv om overholdelse av robots.txt er frivillig og hovedsakelig avhengig av å styre webcrawlere, kan ignorering av disse reglene starte en urovekkende trend i dataskrapingspraksisen til enkelte AI-firmaer, inkludert Anthropic.