AI爬虫无孔不入,Cloudflare要当网站的“救世主”
创始人
2025-07-04 13:51:34
0

文|三易生活

随着不久前美国法官支持Meta、Anthropic的诉求,做出了AI厂商使用受版权保护的作品来训练AI大模型属于合理使用这样的判决,AI业界真的是变天了。当法官认为硅谷AI大厂未经版权方许可的行为“符合版权激发创造力、促进科学进步的目的”,直接让拥有内容的版权所有者变得人人自危。

就在全世界的内容创作者和版权方都惴惴不安时,知名云服务提供商Cloudflare站了出来,日前该公司宣布将默认阻止AI爬虫在未经网站所有者许可或补偿的情况下抓取内容。据悉,每一个新注册Cloudflare的域名都将被询问是否允许AI爬虫访问,从而有效赋予网站阻止AI爬虫抓取其数据的能力。

Cloudflare的CEO马修·普林斯在相关声明中宣称,“我们的目标是将控制权交还给创作者,同时继续助力AI公司创新”。同时他还强调Cloudflare并未选择与AI厂商敌对,该公司还将提供AI厂商“按次付费爬取”以获取内容,并表示“这是通过建立多方共赢的新模式,守护自由繁荣互联网未来的关键举措。”

当AI厂商从法律层面获得了使用爬虫抓取内容的合理许可之后,全世界的内容创作者就已经失去用法律武器保护自己的可能,双方的对抗将回归技术攻防范畴。可是面对拥有强大技术实力的AI厂商,版权方保护内容的防线说是纸糊的都不为过。所以在这时候,Cloudflare的出现无异于是救内容创作者或版权方于水火之中。

当然,Cloudflare也不是做慈善的,其反AI爬虫功能仅提供给使用Cloudflare服务的创作者。作为全球知名的网络服务提供商,Cloudflare主要提供内容分发网络(CDN)、域名解析(DNS)、网络安全防护(如DDoS防御)等服务,反AI爬虫则是其用于吸引创作者、网站站长使用相关服务的“香饵”。

事实上,大量的内容创作者、网站站长、出版商等一切版权拥有者也几乎绝对会咬钩,因为他们正面临着一场“生存危机”。因为当下有越来越多的用户更喜欢通过与Gemini AI、ChatGPT、DeepSeek、文小言等AI聊天机器人对话的方式,来获取所需信息,并且不愿意点击聊天机器人提供的原始链接。

根据SEO方案解决商BrightEdge公布的数据显示,谷歌搜索的AI Mode今年6月在美国市场上线时,直接就导致传统URL链接的用户点击率下降了30%。要知道网站站长、出版商的商业模式是通过内容来吸引用户点击,再将用户访问产生的流量卖给广告商来赚钱。如果用户不访问,那么网站就无法获得维持运营所需的广告收入。

在版权方看来,他们与AI厂商之间已经不是“分赃不均”,而是AI厂商的出现导致他们不得不面临“生存危机”,并且有相当多的AI厂商并没有为AI爬虫获取的内容付费。有鉴于此,一切能阻碍AI厂商使用自己数据迭代AI大模型的手段,在版权方看来都是可以接受的。

那么Cloudflare有能力抵抗AI爬虫的进攻吗?据悉,Cloudflare的5秒盾(5-second challenge)可谓是反爬虫领域的一面旗帜,其会通过5秒等待时间配合多维度验证(如请求头、User-Agent、Cookies 等)来区分真人用户与自动化工具,从而让无数爬虫在此折戟。

事实上,Cloudflare不仅在传统的反爬虫领域有口皆碑,在面对新兴的AI爬虫时同样也有建树。AI爬虫之所以会让相当多传统的反爬虫手段失效,盖因其实际上可以被视为是一种智能体,它们可以完全与真人一样操作浏览器,从而导致以往被用于分辨机器和人类的验证码、浏览器等常规反爬虫手段变得形同虚设。

对此Cloudflare拿出了被称为“AI废话迷宫”的AI Labyrinth,它属于通过诱导式陷阱来消耗爬虫的资源,而非直接拦截的“蜜罐技术”。具体来说,Cloudflare会在网页中嵌入含有仅对爬虫可见的隐藏链接,这些链接则指向由AI生成的虚假页面,虽然内容看似真实、但与被保护的网站无关。

简而言之,Cloudflare不仅不会拦截AI爬虫,而是选择引诱爬虫走进一个精心编织的多层嵌套虚假页面迷宫。AI爬虫一旦被引诱,就会在无意义的内容中团团转,从而浪费计算资源和带宽。其实Cloudflare的这番操作之所以会有效,核心机制就在于正常人不会对AI生成的无意义内容感兴趣。

如此一来,AI Labyrinth就实现了消耗AI厂商宝贵的算力和带宽,让后者觉得使用爬虫爬取你的网站缺乏性价比。不仅如此,Cloudflare方面还宣称陷入迷宫的AI爬虫行为会被记录,用于训练Cloudflare的识别模型,以形成“检测-诱捕-优化”的反馈闭环。

当然,Cloudflare也明白一味与AI厂商对抗,只会导致双方陷入无意义的消耗战。所以他们Cloudflare还提供了一个“按次付费爬取”的方案,允许网站所有者向AI厂商收取访问内容的相关费用,为AI行业合理获得内容提供了一条具备可行性的路径。

其实财大气粗的AI厂商不是不愿意为内容付费,例如谷歌就每年花费6000万美元获取Reddit的内容,OpenAI也宣布将付费使用德国出版巨头施普林格旗下出版物的内容。只是问题在于,互联网世界的内容提供商有如恒河沙数,AI厂商没有时间和人员逐个与不同的主体谈判,所以就只能抓大放小,针对小网站用技术手段、面对大网站则使用金钱攻势。

Cloudflare的这个方案,妙就妙在一边用技术手段将小网站武装成“刺猬”,另一边则提供了一个标准化的内容付费渠道。

相关内容

热门资讯

天佑德酒:目前推出了一款28°... 证券日报网讯天佑德酒7月4日在互动平台回答投资者提问时表示,公司目前推出了一款28°柠檬风味青稞酒,...
今夜至明天,北京有明显雷阵雨天... 今天17时,北京市气象台发布天气预报:今天夜间多云转阴有雷阵雨,南转北风二三级,后半夜局地阵风七八级...
欢迎安井食品集团股份有限公司(... 欢迎安井食品集团股份有限公司(2648)今日加入香港市场!安井食品是中国速冻食品行业的龙头企业。恭喜...
刚刚!苏超发布最新调整!   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 转自:苏州发布刚刚“...
爱美客技术发展股份有限公司拟变... 来源:中访网财观中访网数据  爱美客技术发展股份有限公司(证券代码:300896,证券简称:爱美客)...