Gli editori di siti web hanno recentemente mosso gravi accuse contro la startup di intelligenza artificiale Anthropic, accusandola di pratiche aggressive di data scraping.
Questo processo automatizzato comporta l'estrazione di dati dai siti Web senza il consenso esplicito dei proprietari dei contenuti, violando potenzialmente i termini di servizio dei siti Web, con ripercussioni durature sia per gli editori che per le società di intelligenza artificiale.
Lo scraping dei dati, sebbene non necessariamente illegale, è diventato controverso quando viola i diritti dei creatori di contenuti. Poiché lo scraping dei dati consente alle aziende di intelligenza artificiale di addestrare i propri modelli con contenuti potenzialmente sensibili o esclusivi, gli editori sono sempre più cauti.
Reazioni e azioni da Freelancer.com
Freelancer.com, un'importante piattaforma per liberi professionisti e datori di lavoro, è stata particolarmente esplicita in queste accuse contro Anthropic.
Il CEO Matt Barrie ha descritto le attività di data scraping della startup come sbalorditive, sostenendo che in 4 ore il sito web aveva trovato 3,5 milioni di visite da un crawler collegato ad Anthropic. Barrie ha affermato che questo volume è "probabilmente circa cinque volte il volume del numero due".
A causa di queste attività distruttive, Freelancer.com ha bloccato completamente il crawler di Anthropic. Barrie ha criticato la società per aver mancato di rispetto ai protocolli Internet, descrivendo lo scraping dei dati come “eclatante”.
Per quanto riguarda i siti web, tali attività non solo indeboliscono le prestazioni del sito ma hanno anche un impatto significativo sulle entrate, poiché l'aumento del traffico proveniente dai crawler automatizzati può sovraccaricare il sistema e renderlo più lento.
iFixit: non è un comportamento educato su Internet
iFixit, una comunità di riparazione e sito Web di risorse, ha inoltre affermato che Anthropic ha ignorato le norme di "non scansione" del sito specificate nel suo file robots.txt.
Kyle Wiens, CEO di iFixit, ha riferito che il crawler di Anthropic ha effettuato l'accesso ai loro server un milione di volte in un solo giorno, il che è sconcertante per la portata e la dirompenza delle loro attività di scraping.
Robots.txt è un file che specifica a quali pagine web i crawler possono accedere e ignorarlo può creare grossi problemi di aderenza e sollevare preoccupazioni più ampie nel settore riguardo al rispetto dei protocolli stabiliti.
Sebbene la conformità con robots.txt sia volontaria e venga utilizzata principalmente per governare i web crawler, il mancato rispetto di queste regole può avviare una tendenza preoccupante nelle pratiche di data scraping di alcune aziende di intelligenza artificiale, inclusa Anthropic.