Издатели веб-сайтов недавно выдвинули серьезные обвинения в адрес AI-стартапа Anthropic, обвинив его в агрессивной практике сбора данных.
Этот автоматизированный процесс предполагает извлечение данных с веб-сайтов без явного разрешения владельцев контента, что потенциально нарушает условия обслуживания веб-сайтов и может иметь долгосрочные последствия как для издателей, так и для компаний, занимающихся искусственным интеллектом.
Сбор данных, хотя и не обязательно является незаконным, становится спорным, когда он нарушает права создателей контента. Поскольку сбор данных позволяет компаниям, занимающимся искусственным интеллектом, обучать свои модели потенциально конфиденциальному или эксклюзивному контенту, издатели становятся все более осторожными.
Реакция и действия от Freelancer.com
Freelancer.com, известная платформа для фрилансеров и работодателей, особенно активно выступала с обвинениями в адрес Anthropic.
Генеральный директор Мэтт Барри назвал деятельность стартапа по сбору данных ошеломляющей, заявив, что за 4 часа веб-сайт обнаружил 3,5 миллиона посещений сканера, связанного с Anthropic. Барри заявил, что этот объем «вероятно, примерно в пять раз превышает объем второго».
Из-за этих деструктивных действий Freelancer.com полностью заблокировал сканер Anthropic. Барри раскритиковал компанию за неуважение к интернет-протоколам, назвав сбор данных «вопиющим».
Что касается веб-сайтов, такие действия не только снижают производительность сайта, но и существенно влияют на доход, поскольку возросший трафик от автоматических сканеров может перегрузить систему и замедлить ее работу.
iFixit: это невежливое поведение в Интернете
iFixit, сообщество и ресурсный веб-сайт по ремонту, также заявили, что Anthropic проигнорировала правила сайта о запрете сканирования, указанные в его файле robots.txt.
Кайл Винс, генеральный директор iFixit, сообщил, что сканер Anthropic обращался к их серверам миллион раз в течение одного дня, что ошеломляет масштабами и разрушительностью их деятельности по очистке данных.
Robots.txt — это файл, который определяет, каким сканерам веб-страниц разрешен доступ, и игнорирование этого может создать серьезные проблемы с соблюдением требований и вызвать более широкую обеспокоенность отрасли по поводу соблюдения установленных протоколов.
Хотя соблюдение файла robots.txt является добровольным и в основном используется для управления веб-сканерами, игнорирование этих правил может положить начало тревожной тенденции в практике сбора данных некоторыми фирмами, занимающимися искусственным интеллектом, включая Anthropic.