Website-uitgevers hebben onlangs ernstige beschuldigingen geuit tegen de AI-startup Anthropic, waarbij ze deze beschuldigden van agressieve data-scraping-praktijken.
Dit geautomatiseerde proces omvat het extraheren van gegevens van websites zonder uitdrukkelijke toestemming van de eigenaren van de inhoud, waardoor mogelijk de servicevoorwaarden van websites worden geschonden, wat blijvende gevolgen kan hebben voor zowel uitgevers als AI-bedrijven.
Het schrapen van gegevens is weliswaar niet noodzakelijkerwijs illegaal, maar is controversieel geworden omdat het inbreuk maakt op de rechten van makers van inhoud. Omdat data scraping AI-bedrijven in staat stelt hun modellen te trainen met potentieel gevoelige of exclusieve inhoud, worden uitgevers steeds voorzichtiger.
Reactie en Acties van Freelancer.com
Freelancer.com, een prominent platform voor freelancers en werkgevers, heeft zich bijzonder uitgesproken in deze beschuldigingen tegen Anthropic.
CEO Matt Barrie omschreef de dataschraapactiviteiten van de startup als onthutsend en beweerde dat de website binnen vier uur 3,5 miljoen bezoeken had gevonden van een crawler die was gekoppeld aan Anthropic. Barrie verklaarde dat dit deel "waarschijnlijk ongeveer vijf keer het volume van nummer twee" is.
Vanwege deze verstorende activiteiten heeft Freelancer.com de crawler van Anthropic volledig geblokkeerd. Barrie bekritiseerde het bedrijf vanwege het niet respecteren van internetprotocollen en omschreef het dataschrapen als ‘flagrant’.
Voor websites geldt dat dergelijke activiteiten niet alleen de prestaties van de site verzwakken, maar ook een aanzienlijke impact hebben op de inkomsten, omdat het toegenomen verkeer van geautomatiseerde crawlers het systeem kan overbelasten en langzamer kan maken.
iFixit: het is geen beleefd internetgedrag
iFixit, een reparatiecommunity en bronnenwebsite, beweerde ook dat Anthropic de 'niet crawlen'-regels van de site negeerde, gespecificeerd in het robots.txt-bestand.
Kyle Wiens, CEO van iFixit, meldde dat de crawler van Anthropic binnen één dag een miljoen keer toegang had tot hun servers, wat verbijsterend is gezien de schaal en ontwrichtende aard van hun scraping-activiteiten.
Robots.txt is een bestand dat specificeert tot welke webpagina's crawlers toegang hebben. Als u dit negeert, kan dit tot grote nalevingsproblemen leiden en zorgen in de bredere sector oproepen over het volgen van vastgestelde protocollen.
Hoewel de naleving van robots.txt vrijwillig is en er vooral op wordt vertrouwd bij het besturen van webcrawlers, kan het negeren van deze regels een verontrustende trend veroorzaken in de gegevensschraappraktijken van sommige AI-bedrijven, waaronder Anthropic.