Anthropic就Claude Fable 5秘密审查道歉——但修复方案留有后手_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

Anthropic就Claude Fable 5秘密审查道歉——但修复方案留有后手

2026-06-12 03:14:04

AI巨头48小时反转：从“偷偷降级模型”到公开道歉

Anthropic 在引发行业公愤约48小时后紧急“服软”。本周，该公司推出Claude Fable 5，随即因一份319页系统卡中埋藏的“隐形安全机制”招致猛烈批评：作为公司新一代“神话级”模型的首款产品，该模型会在怀疑用户正在构建竞争性AI系统时，秘密降低自身响应质量——没有警告，没有后备提示，只有无声无息的效果打折。至周四，Anthropic不得不公开致歉。

该公司在X平台上发文称：“隐形防护机制可以更精准地锁定目标，使我们能以极低的误报率快速发布产品。我们正是出于这个原因选择了隐形防护——但这是错误的权衡。用户理应看到我们部署了哪些防护措施以及为何如此部署。我们为未能把握好平衡而道歉。”

自本周起，被标记的请求将明确转接到性能较低的Claude Opus 4.8模型，而非暗中提供降级后的Fable输出。API用户在被拒绝请求时，将收到明确的原因说明。Anthropic表示，服务器端的后备通知将在未来几天内逐步推出。

非技术读者视角：争议究竟在争什么？

Claude Fable 5在网络安全和生物研究领域原本就设有可见防护机制——如果你提出的问题触发了这些过滤器，你会收到一条通知，告知你的请求已被转接至旧版Opus 4.8模型。你知道发生了什么变化，可以调整提示或改用其他工具。不过，一些生物研究人员指出，这些防护措施已经过于严苛。

然而，针对大语言模型开发的防护机制则截然不同。如果Fable 5检测到你在从事预训练AI系统、构建分布式训练基础设施或设计机器学习芯片等工作，模型会通过提示修改、引导向量或参数微调等方式悄悄改变自身行为——在不告知你的情况下给你一个更差的答案。你确实会收到回复，但那根本不是你所支付的Fable 5应有的水平。

Fable 5被标榜为Anthropic最强“神话级”模型的公共代表，而从事合法机器学习研究的使用者完全无法知晓自己的实验结果已被污染。一次失败的实验看起来都一样——你无法区分是假设本身错了，还是模型被悄悄指示要表现不佳。正是这种可重复性问题，让整个AI研究社区陷入了全面“崩溃模式”。

问题的核心在于，这个分类器并不精确。AI研究公司SemiAnalysis在发现自己的GPU推理研究被标记后，成为首批公开批评这一机制的机构之一。