Penerbit situs web baru-baru ini melontarkan tuduhan serius terhadap startup AI Anthropic, dan menuduhnya melakukan praktik pengikisan data yang agresif.
Proses otomatis ini melibatkan pengambilan data dari situs web tanpa izin eksplisit dari pemilik konten, yang berpotensi melanggar persyaratan layanan situs web, yang dapat menimbulkan dampak jangka panjang bagi penerbit dan perusahaan AI.
Pengikisan data, meskipun tidak selalu ilegal, telah menjadi kontroversi karena melanggar hak pembuat konten. Karena pengikisan data memungkinkan perusahaan AI untuk melatih model mereka dengan konten yang berpotensi sensitif atau eksklusif, penerbit semakin berhati-hati.
Reaksi dan Tindakan dari Freelancer.com
Freelancer.com, sebuah platform terkemuka untuk pekerja lepas dan pemberi kerja, sangat vokal dalam tuduhan terhadap Anthropic ini.
CEO Matt Barrie menggambarkan aktivitas pengikisan data startup tersebut sebagai hal yang mengejutkan, mengklaim bahwa dalam waktu 4 jam, situs web tersebut telah menemukan 3,5 juta kunjungan dari crawler yang terkait dengan Anthropic. Barrie menyatakan bahwa volume ini "mungkin sekitar lima kali volume nomor dua".
Karena aktivitas yang mengganggu ini, Freelancer.com telah memblokir crawler Anthropic sepenuhnya. Barrie mengkritik perusahaan tersebut karena tidak menghormati protokol internet, dan menggambarkan pengumpulan data sebagai sesuatu yang “mengerikan.”
Bagi situs web, aktivitas seperti itu tidak hanya melemahkan kinerja situs namun juga berdampak signifikan terhadap pendapatan, karena peningkatan lalu lintas dari perayap otomatis dapat membebani sistem dan membuatnya lebih lambat.
iFixit: Ini Bukan Perilaku Internet yang Sopan
iFixit, komunitas perbaikan dan situs sumber daya, juga menuduh Anthropic mengabaikan peraturan "jangan merayapi" situs yang ditentukan dalam file robots.txt-nya.
Kyle Wiens, CEO iFixit, melaporkan bahwa crawler Anthropic mengakses server mereka jutaan kali dalam satu hari, hal ini sangat mengejutkan dengan skala dan gangguan aktivitas scraping mereka.
Robots.txt adalah file yang menentukan halaman web mana yang boleh diakses oleh crawler, dan mengabaikannya dapat menimbulkan masalah kepatuhan yang besar dan meningkatkan kekhawatiran industri yang lebih luas tentang kepatuhan terhadap protokol yang ditetapkan.
Meskipun kepatuhan terhadap robots.txt bersifat sukarela dan sebagian besar diandalkan untuk mengatur perayap web, pengabaian terhadap peraturan ini dapat memicu tren yang meresahkan dalam praktik pengumpulan data di beberapa perusahaan AI, termasuk Anthropic.