Claude团队引众怒，为爬数据不择手段，给爬虫改名字无视禁止规则

衡宇 2024-07-31 15:24:19 来源：量子位

群情激愤：小偷！

衡宇发自凹非寺

量子位 | 公众号 QbitAI

Claude团队这次惹了众怒！

原因：24小时内访问某公司服务器100万次，以不付费形式，爬虫抓取网站内容。

不仅明目张胆无视了“禁止爬取”的公告，还强行占用了服务器资源。

这家“受害者”公司其实尽力防御了，但阻止失败，内容数据还是被Claude抓走了。

公司负责人气得吹胡子瞪眼，在x上激情开麦：

嘿，Anthropic，我知道您渴望数据。Claude真的很聪明！
但你造吗，这一点也不！酷！哦！

许多网友为此愤愤不平，有个搞文案工作的网友留言称：

“我建议用‘偷’，而不是‘不付费’来描述Anthropic的这种行为。”

一时之间，群情激愤！

支持声讨的，要求Claude付费的，评论区简直乱成一锅粥了。

这是怎么回事

强烈谴责Anthropic的这家公司叫做iFixit，是一家美国电子商务和操作指南网站。

iFixit的业务的一部分，是为消费电子产品和小工具提供类维基百科的免费在线维修指南。

网站内有数百万个页面，包括修理指南、指南的修订历史、博客、新闻帖子和研究、论坛、社区贡献的修理指南和问答部分等。

但，iFixit突然发现，Claude的爬虫程序ClaudeBot在几个小时内，每分钟都有数千次请求访问。

这约等于一天内访问其网站近百万次。

据统计，它一天内访问了10 TB的文件，整个5月份总计访问了73 TB。

为此，iFixit的CEO老K（Kyle Wiens）丢下一句话：

未经许可，ClaudeBot偷走我们所有的数据，还把我们的服务器占满了……Fine，这也没什么大不了。
不知道它有没有爬到我们的许可说明？？

对你没看错，「未经许可」。

iFixit其实有写声明——

未经iFixit明确事先书面许可，严禁因为任何其他目的（包括训练机器学习或人工智能模型）复制、复制或分发本网站上的任何内容、材料或设计元素。

然并卵。

Claude不仅视若无睹地继续疯狂访问-抓取，还躲避了iFixit的防御。

iFixit其实成功阻止了两个Anthropic的AI抓取机器人，分别名为“ANTHROPIC-AI”和“CLAUDE-WEB”。

但这俩AI抓取机器人似乎已经是过去式了，目前的主力爬虫正是没被阻止成功的“ClaudeBot”。

逼不得已，老K表示，iFixit本周修改了robots.txt文件，专门用来阻止Anthropic的爬虫机器人。

那，Anthropic那边有啥反应不？

它们倒是没有闭麦，对媒体回应道：

ANTHROPIC-AI 和 CLAUDE-WEB 这俩确实是公司使用过的旧爬虫，但现在已经停止使用了。

当然了，Anthropic回避了现在活跃的ClaudeBot是否尊重防爬虫robots.txt阻止被爬取的问题。

AI公司不是第一次干这事儿了

翻看Anthropic的官方网站可以发现，早就挂着一篇名为《Anthropic是否从网络上抓取数据？网站所有者如何阻止抓取工具？》的文章。

里面提到：

根据行业标准，Anthropic使用各种数据源进行模型开发，例如通过网络爬虫收集的来自互联网的公开数据。

我们的爬取不应具有侵入性或破坏性。

我们的目标是通过考虑爬取相同域的速度，并在适当的情况下尊重爬行延迟来将干扰降到最低。

但一片舆论声中不难发现，Anthropic显然不是这么做的。

它，未经允许爬取别人数据，老惯犯了。

就说今年4月的时候，Linux Mint论坛就惨遭被爬。

在几个小时中，ClaudeBot多次访问论坛爬取数据，导致论坛在几个小时内处于超低速or崩溃状态，最终完全崩掉。

有人表示，在同一时间内，ClaudeBot占用的流量独占鳌头，是第二名的20倍、第三名的40倍。

在4月事件和本次事件的讨论贴中，都有人建议：

既然放禁爬取公告没有用，那不放在网站中搞一些带有可追踪or独特信息的虚假信息，以便检测是谁偷走了数据。

iFixit确实也这么做了。

而且真的有用——发现自家网站的信息不仅被Claude爬个底朝天，还被OpenAI也爬走了……

讲道理，有什么办法呢？真的一点办法也没有。

因为除了Claude和GPT以外，这样强行偷家的AI挺不少的。

前几天就有一家名为Tollbit的机器人检测初创公司声称Perplexity、Claude、OpenAI会忽略爬取网站上的robots.txt设置——当时有人跑去问了OpenAI的态度，OpenAI不予置评。

再往前看，上个月也闹过一次。

《福布斯》谴责AI搜索产品Perplexity涉嫌抄袭其新闻文章；一石激起千层浪，更多媒体站出来，指责Perplexity的爬虫机器人PerplexityBot非法抓取自家网站信息。

而Perplexity一直的态度都是：

尊重出版商不抓取内容的要求，并且在合理使用版权法的范围内运营。

理论上讲，不管是ClaudeBot还是PerplexityBot，在遇到标明“禁止抓取”“禁止robot.txt”的文件时，都应该遵从协议，规避爬取声明方网站的内容。

既然声明无效，就有人呼吁创作者把内容尽可能转移到付费区域，来防止无限制的抓取。

你觉得这样的办法会有效吗？

参考链接：
[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/
[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/Carnage4Life/status/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler?ref=404media.co

衡宇

Claude团队引众怒，为爬数据不择手段，给爬虫改名字无视禁止规则

这是怎么回事

AI公司不是第一次干这事儿了

相关阅读

ChatGPT最强平替告别纯免费！Claude会员版每月140，对话量可提高5倍

Manus带火的MCP，让Claude一句话自动化3D建模，网友：真·AI+应用

Claude三巨头回应一切！Opus3.5仍可能发布，5小时视频10万人围观

「ChatGPT最强竞品」爆火：不限量不要钱免注册！一手实测体验在此

成本降低90%！Claude上新Gemini同款提示词缓存，一次性记住整个代码库

40亿美元！Anthropic再获亚马逊新投资，双方正合作开发AI芯片

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

中国AI投资五小龙：南林北曹，东剑西米，中王淮；清一色985理工科背景