混合用途爬虫的硬性截止日期
Cloudflare 已为 AI 行业设定了最后期限:要求将用于传统搜索的网络爬虫与用于 AI 代理及模型训练的爬虫加以区分。自 2026 年 9 月 15 日起,其默认设置将屏蔽所有访问广告投放页面的混合用途爬虫。
除非网站所有者自行调整设置,否则那些集搜索、代理和训练功能于一体的爬虫将被默认拦截。这一变更适用于新客户、现有客户建立的新站点,以及所有现有的免费套餐用户。
此举反映了 Cloudflare 对出版商与 AI 公司之间关系的重新定位。以往互联网通过将用户导向原始网站来奖励内容创作者,而如今 AI 爬虫收集文本、文章和图片后直接生成回复,不再将用户引向来源,从而剥夺了出版商的流量和广告收入。
虽然未点名具体公司,但意图十分明显。Cloudflare 专门对谷歌提出了批评,认为这家搜索巨头的垄断地位使其能够获取大约两倍于其他 AI 公司的网页内容——因为要在搜索中保持可见,实际上意味着必须同意内容被用于 AI。
谷歌则反驳称,其提供了名为 Google-Extended 的爬虫工具,网站所有者可选择不让自己的内容用于 AI 训练及 Gemini 等产品,同时不影响网站在谷歌搜索中的收录。
Cloudflare 的市场地位放大了这一政策的影响力。由于处理了约 20% 的网页流量,Cloudflare 拥有不同寻常的杠杆来重塑 AI 公司大规模获取出版商内容的方式。为强调事态的严重性,Cloudflare 引用了爬取-引荐比率数据:谷歌每产生一次引荐,会爬取网站约 14 次;OpenAI 的比率是 1700:1;而 Anthropic 更是高达 73000:1。
从按爬取付费到按使用付费
一年前,Cloudflare 推出了按爬取付费模式,允许出版商向 AI 公司收取爬取其内容的费用。如今,这一模式正进化为按使用付费,即只有当出版商的内容真正创造价值时(而不仅仅是获取时),他们才能获得报酬。
Cloudflare 的数据显示,AI 爬虫超过 50% 的爬取流量用于重复获取未更改的页面,这既浪费了出版商的带宽,也浪费了 AI 公司的算力。按使用付费模式旨在通过将报酬与结果而非活动挂钩,来纠正这一低效问题。
Cloudflare 正在将按爬取付费扩展为更广泛的按使用付费模式:出版商可在其内容出现在 AI 结果中时、或当 AI 代理为特定任务购买优质信息时获得报酬。Ceramic.ai 和 You.com 是该计划的首批合作伙伴。
此外,还计划推出一个“归因业务洞察”仪表板,用于展示 AI 机器人如何访问内容、这些内容被引用的位置,以及不同 AI 平台能返回多少人工流量。
这一政策对那些围绕大规模、无限制网页访问构建数据管线的 AI 公司构成了重大的结构性挑战。该变更将网页爬取访问从隐性转变为显性,并提高了获取全网训练数据的运营成本——因为基于批量爬取的数据管道将需要权限检查、凭证验证或付费访问。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种