Web sitesi yayıncıları yakın zamanda yapay zeka girişimi Anthropic'e karşı, onu agresif veri kazıma uygulamalarıyla suçlayarak ciddi iddialarda bulundu.
Bu otomatik süreç, içerik sahiplerinin açık izni olmadan web sitelerinden veri çıkarmayı içerir ve potansiyel olarak web sitelerinin hizmet şartlarını ihlal eder ve bu durum hem yayıncılar hem de yapay zeka şirketleri için kalıcı sonuçlar doğurabilir.
Veri kazıma, mutlaka yasa dışı olmasa da, içerik oluşturucuların haklarını ihlal ettiğinde tartışmalı hale geldi. Veri kazıma, yapay zeka şirketlerinin modellerini potansiyel olarak hassas veya özel içerikle eğitmesine olanak tanıdığından, yayıncılar giderek daha ihtiyatlı davranıyor.
Freelancer.com'dan Tepki ve Eylemler
Serbest çalışanlar ve işverenler için öne çıkan bir platform olan Freelancer.com, Anthropic'e yönelik bu suçlamalarda özellikle sesini yükseltti.
CEO Matt Barrie, girişimin veri kazıma faaliyetlerini şaşırtıcı olarak nitelendirdi ve web sitesinin 4 saat içinde Anthropic'e bağlı bir tarayıcıdan 3,5 milyon ziyaret bulduğunu iddia etti. Barrie, bu cildin "muhtemelen iki numaranın hacminin yaklaşık beş katı" olduğunu belirtti.
Bu yıkıcı faaliyetler nedeniyle Freelancer.com, Anthropic'in tarayıcısını tamamen engelledi. Barrie, şirketi internet protokollerine saygısızlık etmekle eleştirdi ve veri kazımayı "korkunç" olarak nitelendirdi.
Web siteleri açısından, bu tür etkinlikler yalnızca sitenin performansını zayıflatmakla kalmaz, aynı zamanda otomatik tarayıcılardan gelen artan trafiğin sistemi aşırı yükleyip yavaşlatabilmesi nedeniyle geliri de önemli ölçüde etkiler.
iFixit: Bu Kibar Bir İnternet Davranışı Değil
Bir onarım topluluğu ve kaynak web sitesi olan iFixit, Anthropic'in sitenin robots.txt dosyasında belirtilen "tarama yapma" düzenlemelerini göz ardı ettiğini de iddia etti.
iFixit CEO'su Kyle Wiens, Anthropic'in tarayıcısının sunucularına tek bir gün içinde milyon kez eriştiğini bildirdi; bu, kazıma faaliyetlerinin boyutu ve yıkıcılığı göz önüne alındığında şaşırtıcıdır.
Robots.txt, tarayıcıların hangi web sayfalarına erişmesine izin verildiğini belirten bir dosyadır ve bunun göz ardı edilmesi, büyük uyum sorunlarına neden olabilir ve belirlenen protokollerin izlenmesi konusunda daha geniş endüstri endişelerine yol açabilir.
Her ne kadar robots.txt'ye uyum gönüllülük esasına dayanıyor ve web tarayıcılarının yönetilmesinde ağırlıklı olarak buna bağlı olsa da, bu kuralların göz ardı edilmesi, Anthropic de dahil olmak üzere bazı yapay zeka firmalarının veri kazıma uygulamalarında rahatsız edici bir trend başlatabilir.