وجه ناشرو مواقع الويب مؤخرًا ادعاءات خطيرة ضد شركة Anthropic الناشئة للذكاء الاصطناعي، واتهموها بممارسات عدوانية لاستخلاص البيانات.
تتضمن هذه العملية الآلية استخراج البيانات من مواقع الويب دون الحصول على إذن صريح من مالكي المحتوى، مما قد ينتهك شروط خدمة مواقع الويب، مما قد يكون له تداعيات دائمة على كل من الناشرين وشركات الذكاء الاصطناعي.
إن تجريف البيانات، على الرغم من أنه ليس بالضرورة غير قانوني، أصبح مثيرًا للجدل عندما ينتهك حقوق منشئي المحتوى. نظرًا لأن استخراج البيانات يسمح لشركات الذكاء الاصطناعي بتدريب نماذجها باستخدام محتوى يحتمل أن يكون حساسًا أو حصريًا، فإن الناشرين يتوخون الحذر بشكل متزايد.
رد الفعل والإجراءات من Freelancer.com
كان موقع Freelancer.com، وهو منصة بارزة للعاملين المستقلين وأصحاب العمل، صريحًا بشكل خاص في هذه الاتهامات الموجهة ضد Anthropic.
وصف الرئيس التنفيذي مات باري أنشطة جمع البيانات التي تقوم بها الشركة الناشئة بأنها مذهلة، مدعيًا أنه في غضون 4 ساعات، عثر الموقع على 3.5 مليون زيارة من زاحف مرتبط بـ Anthropic. صرح باري أن هذا الحجم "ربما يكون حوالي خمسة أضعاف حجم الرقم اثنين".
وبسبب هذه الأنشطة التخريبية، قام موقع Freelancer.com بحظر زاحف Anthropic بالكامل. وانتقد باري الشركة لعدم احترامها لبروتوكولات الإنترنت، ووصف عملية جمع البيانات بأنها "فظيعة".
بالنسبة لمواقع الويب، فإن مثل هذه الأنشطة لا تؤدي إلى إضعاف أداء الموقع فحسب، بل تؤثر أيضًا بشكل كبير على الإيرادات، حيث يمكن أن تؤدي زيادة حركة المرور من برامج الزحف الآلية إلى زيادة التحميل على النظام وجعله أبطأ.
iFixit: هذا ليس سلوكًا مهذبًا على الإنترنت
كما زعم iFixit، وهو موقع ويب لمجتمع الإصلاح والموارد، أن Anthropic تجاهلت لوائح "عدم الزحف" الخاصة بالموقع والمحددة في ملف robots.txt الخاص به.
أفاد كايل وينز، الرئيس التنفيذي لشركة iFixit، أن زاحف Anthropic وصل إلى خوادمه مليون مرة خلال يوم واحد، وهو أمر مذهل بحجم أنشطة التجريد الخاصة بهم والاضطراب.
Robots.txt هو ملف يحدد صفحات الويب التي يُسمح لبرامج زحف الويب بالوصول إليها، وقد يؤدي تجاهل ذلك إلى إنشاء مشكلات التزام كبيرة وزيادة مخاوف الصناعة على نطاق أوسع بشأن اتباع البروتوكولات المحددة.
على الرغم من أن الامتثال لملف robots.txt هو أمر طوعي ويتم الاعتماد عليه في الغالب للتحكم في برامج زحف الويب، إلا أن تجاهل هذه القواعد يمكن أن يبدأ اتجاهًا مثيرًا للقلق في ممارسات استخراج البيانات لبعض شركات الذكاء الاصطناعي، بما في ذلك Anthropic.