自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

Cloudflare向AI公司发出数据爬取最后通牒

2026-07-03 04:29:00
收藏

混合用途爬虫的硬性截止日期

Cloudflare 已为 AI 行业设定了最后期限:要求将用于传统搜索的网络爬虫与用于 AI 代理及模型训练的爬虫加以区分。自 2026 年 9 月 15 日起,其默认设置将屏蔽所有访问广告投放页面的混合用途爬虫。

除非网站所有者自行调整设置,否则那些集搜索、代理和训练功能于一体的爬虫将被默认拦截。这一变更适用于新客户、现有客户建立的新站点,以及所有现有的免费套餐用户。

此举反映了 Cloudflare 对出版商与 AI 公司之间关系的重新定位。以往互联网通过将用户导向原始网站来奖励内容创作者,而如今 AI 爬虫收集文本、文章和图片后直接生成回复,不再将用户引向来源,从而剥夺了出版商的流量和广告收入。

虽然未点名具体公司,但意图十分明显。Cloudflare 专门对谷歌提出了批评,认为这家搜索巨头的垄断地位使其能够获取大约两倍于其他 AI 公司的网页内容——因为要在搜索中保持可见,实际上意味着必须同意内容被用于 AI。

谷歌则反驳称,其提供了名为 Google-Extended 的爬虫工具,网站所有者可选择不让自己的内容用于 AI 训练及 Gemini 等产品,同时不影响网站在谷歌搜索中的收录。

Cloudflare 的市场地位放大了这一政策的影响力。由于处理了约 20% 的网页流量,Cloudflare 拥有不同寻常的杠杆来重塑 AI 公司大规模获取出版商内容的方式。为强调事态的严重性,Cloudflare 引用了爬取-引荐比率数据:谷歌每产生一次引荐,会爬取网站约 14 次;OpenAI 的比率是 1700:1;而 Anthropic 更是高达 73000:1。

从按爬取付费到按使用付费

一年前,Cloudflare 推出了按爬取付费模式,允许出版商向 AI 公司收取爬取其内容的费用。如今,这一模式正进化为按使用付费,即只有当出版商的内容真正创造价值时(而不仅仅是获取时),他们才能获得报酬。

Cloudflare 的数据显示,AI 爬虫超过 50% 的爬取流量用于重复获取未更改的页面,这既浪费了出版商的带宽,也浪费了 AI 公司的算力。按使用付费模式旨在通过将报酬与结果而非活动挂钩,来纠正这一低效问题。

Cloudflare 正在将按爬取付费扩展为更广泛的按使用付费模式:出版商可在其内容出现在 AI 结果中时、或当 AI 代理为特定任务购买优质信息时获得报酬。Ceramic.ai 和 You.com 是该计划的首批合作伙伴。

此外,还计划推出一个“归因业务洞察”仪表板,用于展示 AI 机器人如何访问内容、这些内容被引用的位置,以及不同 AI 平台能返回多少人工流量。

这一政策对那些围绕大规模、无限制网页访问构建数据管线的 AI 公司构成了重大的结构性挑战。该变更将网页爬取访问从隐性转变为显性,并提高了获取全网训练数据的运营成本——因为基于批量爬取的数据管道将需要权限检查、凭证验证或付费访问。

展开阅读全文
更多新闻