Os editores de sites levantaram recentemente sérias acusações contra a startup de IA Anthropic, acusando-a de práticas agressivas de coleta de dados.
Este processo automatizado envolve a extração de dados de websites sem permissão explícita dos proprietários do conteúdo, violando potencialmente os termos de serviço dos websites, o que pode ter repercussões duradouras tanto para os editores como para as empresas de IA.
A coleta de dados, embora não necessariamente ilegal, tornou-se controversa quando infringe os direitos dos criadores de conteúdo. À medida que a recolha de dados permite que as empresas de IA treinem os seus modelos com conteúdo potencialmente sensível ou exclusivo, os editores estão cada vez mais cautelosos.
Reação e ações do Freelancer.com
Freelancer.com, uma plataforma proeminente para freelancers e empregadores, tem sido particularmente veemente nessas acusações contra a Anthropic.
O CEO Matt Barrie descreveu as atividades de coleta de dados da startup como surpreendentes, alegando que em 4 horas o site encontrou 3,5 milhões de visitas de um rastreador vinculado ao Anthropic. Barrie afirmou que este volume é "provavelmente cerca de cinco vezes o volume do número dois".
Devido a essas atividades perturbadoras, o Freelancer.com bloqueou totalmente o rastreador da Anthropic. Barrie criticou a empresa por desrespeitar os protocolos da Internet, descrevendo a coleta de dados como “flagrante”.
Por parte dos websites, tais atividades não só enfraquecem o desempenho do site, mas também têm um impacto significativo nas receitas, uma vez que o aumento do tráfego de rastreadores automatizados pode sobrecarregar o sistema e torná-lo mais lento.
iFixit: não é um comportamento educado na Internet
iFixit, uma comunidade de reparos e site de recursos, também alegou que a Anthropic ignorou os regulamentos de “não rastrear” do site especificados em seu arquivo robots.txt.
Kyle Wiens, CEO da iFixit, relatou que o rastreador da Anthropic acessou seus servidores um milhão de vezes em um único dia, o que é impressionante pela escala e pela perturbação de suas atividades de scraping.
Robots.txt é um arquivo que especifica quais páginas da web os rastreadores têm permissão para acessar, e ignorá-lo pode criar grandes problemas de adesão e levantar preocupações mais amplas do setor sobre o cumprimento de protocolos definidos.
Embora a conformidade com o robots.txt seja voluntária e predominantemente utilizada para governar os rastreadores da web, o desrespeito a essas regras pode iniciar uma tendência preocupante nas práticas de coleta de dados de algumas empresas de IA, incluindo a Anthropic.