Los editores de sitios web han presentado recientemente serias acusaciones contra la startup de inteligencia artificial Anthropic, acusándola de prácticas agresivas de extracción de datos.
Este proceso automatizado implica la extracción de datos de sitios web sin el permiso explícito de los propietarios del contenido, lo que podría violar los términos de servicio de los sitios web, lo que podría tener repercusiones duraderas tanto para los editores como para las empresas de inteligencia artificial.
La extracción de datos, si bien no es necesariamente ilegal, se ha vuelto polémica cuando infringe los derechos de los creadores de contenido. Dado que la extracción de datos permite a las empresas de inteligencia artificial entrenar sus modelos con contenido potencialmente confidencial o exclusivo, los editores son cada vez más cautelosos.
Reacción y acciones de Freelancer.com
Freelancer.com, una destacada plataforma para autónomos y empleadores, ha sido particularmente vocal en estas acusaciones contra Anthropic.
El director ejecutivo Matt Barrie describió las actividades de extracción de datos de la startup como asombrosas y afirmó que en 4 horas, el sitio web había encontrado 3,5 millones de visitas de un rastreador vinculado a Anthropic. Barrie afirmó que este volumen es "probablemente unas cinco veces el volumen del número dos".
Debido a estas actividades disruptivas, Freelancer.com ha bloqueado por completo el rastreador de Anthropic. Barrie criticó a la empresa por faltarle el respeto a los protocolos de Internet y describió la extracción de datos como "atroz".
Por parte de los sitios web, tales actividades no sólo debilitan el rendimiento del sitio sino que también impactan significativamente los ingresos, ya que el aumento del tráfico de los rastreadores automatizados puede sobrecargar el sistema y hacerlo más lento.
iFixit: no es un comportamiento cortés en Internet
iFixit, una comunidad de reparación y un sitio web de recursos, también alegó que Anthropic ignoró las regulaciones de "no rastreo" del sitio especificadas en su archivo robots.txt.
Kyle Wiens, director ejecutivo de iFixit, informó que el rastreador de Anthropic accedió a sus servidores un millón de veces en un solo día, lo cual es asombroso por la escala y la perturbación de sus actividades de raspado.
Robots.txt es un archivo que especifica a qué páginas web pueden acceder los rastreadores, e ignorarlo puede crear importantes problemas de cumplimiento y generar preocupaciones más amplias en la industria sobre el cumplimiento de los protocolos establecidos.
Aunque el cumplimiento del archivo robots.txt es voluntario y se utiliza principalmente para controlar los rastreadores web, el incumplimiento de estas reglas puede iniciar una tendencia preocupante en las prácticas de recolección de datos de algunas empresas de inteligencia artificial, incluida Anthropic.