ผู้เผยแพร่เว็บไซต์ได้ตั้งข้อกล่าวหาร้ายแรงเมื่อเร็ว ๆ นี้เกี่ยวกับการเริ่มต้น AI ของ Anthropic โดยกล่าวหาว่ามีแนวทางปฏิบัติในการขูดข้อมูลเชิงรุก
กระบวนการอัตโนมัตินี้เกี่ยวข้องกับการดึงข้อมูลจากเว็บไซต์โดยไม่ได้รับอนุญาตอย่างชัดแจ้งจากเจ้าของเนื้อหา ซึ่งอาจละเมิดข้อกำหนดในการให้บริการของเว็บไซต์ ซึ่งอาจส่งผลกระทบระยะยาวต่อทั้งผู้เผยแพร่และบริษัท AI
การขูดข้อมูลแม้จะไม่จำเป็นต้องผิดกฎหมาย แต่ก็กลายเป็นที่ถกเถียงกันเมื่อละเมิดสิทธิ์ของผู้สร้างเนื้อหา เนื่องจากการขูดข้อมูลทำให้บริษัท AI สามารถฝึกอบรมโมเดลของตนด้วยเนื้อหาที่อาจละเอียดอ่อนหรือพิเศษเฉพาะได้ ผู้เผยแพร่จึงเพิ่มความระมัดระวังมากขึ้น
ปฏิกิริยาและการดำเนินการจาก Freelancer.com
Freelancer.com ซึ่งเป็นแพลตฟอร์มที่โดดเด่นสำหรับฟรีแลนซ์และนายจ้าง ได้รับการกล่าวถึงเป็นพิเศษในข้อกล่าวหาเหล่านี้ต่อ Anthropic
CEO Matt Barrie อธิบายว่ากิจกรรมการขูดข้อมูลของสตาร์ทอัพนั้นน่าปวดหัว โดยอ้างว่าภายใน 4 ชั่วโมง เว็บไซต์พบการเข้าชม 3.5 ล้านครั้ง จากโปรแกรมรวบรวมข้อมูลที่เชื่อมโยงกับ Anthropic แบร์รีระบุว่าหนังสือเล่มนี้ "น่าจะประมาณห้าเท่าของเล่มที่สอง"
เนื่องจากกิจกรรมก่อกวนเหล่านี้ Freelancer.com จึงบล็อกโปรแกรมรวบรวมข้อมูลของ Anthropic โดยสิ้นเชิง Barrie วิพากษ์วิจารณ์บริษัทที่ไม่เคารพโปรโตคอลอินเทอร์เน็ต โดยอธิบายว่าการคัดลอกข้อมูลนั้น “ร้ายแรง”
ในส่วนของเว็บไซต์ กิจกรรมดังกล่าวไม่เพียงแต่ทำให้ประสิทธิภาพของไซต์ลดลงเท่านั้น แต่ยังส่งผลกระทบอย่างมีนัยสำคัญต่อรายได้ด้วย เนื่องจากการรับส่งข้อมูลที่เพิ่มขึ้นจากโปรแกรมรวบรวมข้อมูลอัตโนมัติอาจทำให้ระบบทำงานหนักเกินไปและทำให้ช้าลง
iFixit: ไม่ใช่พฤติกรรมการใช้อินเทอร์เน็ตที่สุภาพ
iFixit ซึ่งเป็นชุมชนการซ่อมแซมและเว็บไซต์ทรัพยากร ยังกล่าวหาว่า Anthropic เพิกเฉยต่อกฎเกณฑ์ "ห้ามรวบรวมข้อมูล" ของไซต์ที่ระบุในไฟล์ robots.txt
Kyle Wiens ซีอีโอของ iFixit รายงานว่าโปรแกรมรวบรวมข้อมูลของ Anthropic เข้าถึงเซิร์ฟเวอร์ของตนนับล้านครั้งภายในวันเดียว ซึ่งน่าประหลาดใจเมื่อพิจารณาจากขนาดและความหยุดชะงักของกิจกรรมการขูดข้อมูล
Robots.txt เป็นไฟล์ที่ระบุว่าโปรแกรมรวบรวมข้อมูลหน้าเว็บใดที่ได้รับอนุญาตให้เข้าถึง โดยไม่สนใจว่าไฟล์ดังกล่าวสามารถสร้างปัญหาการปฏิบัติตามหลักๆ และเพิ่มความกังวลในอุตสาหกรรมในวงกว้างเกี่ยวกับการปฏิบัติตามโปรโตคอลที่ตั้งไว้
แม้ว่าการปฏิบัติตาม robots.txt นั้นเป็นไปโดยสมัครใจและอาศัยการควบคุมโปรแกรมรวบรวมข้อมูลเว็บเป็นหลัก แต่การไม่คำนึงถึงกฎเหล่านี้อาจทำให้เกิดแนวโน้มที่น่าหนักใจในแนวทางปฏิบัติในการขูดข้อมูลของบริษัท AI บางแห่ง รวมถึง Anthropic