Website-Publisher haben jüngst schwere Vorwürfe gegen das KI-Startup Anthropic erhoben und ihm aggressives Data-Scraping vorgeworfen.
Bei diesem automatisierten Prozess werden Daten von Websites ohne die ausdrückliche Genehmigung der Inhaltseigentümer extrahiert, was möglicherweise einen Verstoß gegen die Servicebedingungen der Websites darstellt und sowohl für Herausgeber als auch für KI-Unternehmen nachhaltige Folgen haben könnte.
Data Scraping ist zwar nicht unbedingt illegal, wird aber kontrovers diskutiert, wenn es die Rechte der Inhaltsersteller verletzt. Da Data Scraping es KI-Unternehmen ermöglicht, ihre Modelle mit potenziell sensiblen oder exklusiven Inhalten zu trainieren, sind die Herausgeber zunehmend vorsichtig.
Reaktionen und Aktionen von Freelancer.com
Freelancer.com, eine bekannte Plattform für Freiberufler und Arbeitgeber, hat diese Vorwürfe gegen Anthropic besonders lautstark erhoben.
CEO Matt Barrie beschrieb die Daten-Scraping-Aktivitäten des Startups als atemberaubend und behauptete, dass die Website innerhalb von 4 Stunden 3,5 Millionen Besuche von einem mit Anthropic verknüpften Crawler gefunden habe. Barrie gab an, dass dieses Volumen „wahrscheinlich etwa fünfmal so hoch ist wie das Volumen von Nummer zwei“.
Aufgrund dieser störenden Aktivitäten hat Freelancer.com den Crawler von Anthropic vollständig blockiert. Barrie kritisierte das Unternehmen für die Missachtung von Internetprotokollen und bezeichnete das Daten-Scraping als „ungeheuerlich“.
Auf der Websiteseite beeinträchtigen derartige Aktivitäten nicht nur die Leistung der Site, sondern wirken sich auch erheblich auf den Umsatz aus, da der erhöhte Datenverkehr durch automatisierte Crawler das System überlasten und verlangsamen kann.
iFixit: Das ist kein höfliches Verhalten im Internet
iFixit, eine Community und Ressourcen-Website für Reparaturen, behauptete außerdem, dass Anthropic die in der Datei robots.txt festgelegten „Do Not Crawl“-Bestimmungen der Site ignoriert habe.
Kyle Wiens, CEO von iFixit, berichtete, dass der Crawler von Anthropic an einem einzigen Tag eine Million Mal auf die Server des Unternehmens zugegriffen habe. Angesichts des Ausmaßes und der Störwirkung seiner Scraping-Aktivitäten sei dies erschreckend.
Bei Robots.txt handelt es sich um eine Datei, die angibt, auf welche Webseiten-Crawler zugreifen dürfen. Wird diese Datei ignoriert, kann dies zu erheblichen Problemen bei der Einhaltung von Richtlinien führen und in der Branche allgemein Anlass zur Sorge geben, ob die festgelegten Protokolle eingehalten werden.
Obwohl die Einhaltung der robots.txt-Datei freiwillig ist und überwiegend zur Steuerung von Webcrawlern verwendet wird, kann die Missachtung dieser Regeln einen beunruhigenden Trend bei den Daten-Scraping-Praktiken einiger KI-Unternehmen, darunter auch Anthropic, auslösen.