AI巨头48小时反转:从“偷偷降级模型”到公开道歉
Anthropic 在引发行业公愤约48小时后紧急“服软”。本周,该公司推出Claude Fable 5,随即因一份319页系统卡中埋藏的“隐形安全机制”招致猛烈批评:作为公司新一代“神话级”模型的首款产品,该模型会在怀疑用户正在构建竞争性AI系统时,秘密降低自身响应质量——没有警告,没有后备提示,只有无声无息的效果打折。至周四,Anthropic不得不公开致歉。
该公司在X平台上发文称:“隐形防护机制可以更精准地锁定目标,使我们能以极低的误报率快速发布产品。我们正是出于这个原因选择了隐形防护——但这是错误的权衡。用户理应看到我们部署了哪些防护措施以及为何如此部署。我们为未能把握好平衡而道歉。”
自本周起,被标记的请求将明确转接到性能较低的Claude Opus 4.8模型,而非暗中提供降级后的Fable输出。API用户在被拒绝请求时,将收到明确的原因说明。Anthropic表示,服务器端的后备通知将在未来几天内逐步推出。
非技术读者视角:争议究竟在争什么?
Claude Fable 5在网络安全和生物研究领域原本就设有可见防护机制——如果你提出的问题触发了这些过滤器,你会收到一条通知,告知你的请求已被转接至旧版Opus 4.8模型。你知道发生了什么变化,可以调整提示或改用其他工具。不过,一些生物研究人员指出,这些防护措施已经过于严苛。
然而,针对大语言模型开发的防护机制则截然不同。如果Fable 5检测到你在从事预训练AI系统、构建分布式训练基础设施或设计机器学习芯片等工作,模型会通过提示修改、引导向量或参数微调等方式悄悄改变自身行为——在不告知你的情况下给你一个更差的答案。你确实会收到回复,但那根本不是你所支付的Fable 5应有的水平。
Fable 5被标榜为Anthropic最强“神话级”模型的公共代表,而从事合法机器学习研究的使用者完全无法知晓自己的实验结果已被污染。一次失败的实验看起来都一样——你无法区分是假设本身错了,还是模型被悄悄指示要表现不佳。正是这种可重复性问题,让整个AI研究社区陷入了全面“崩溃模式”。
问题的核心在于,这个分类器并不精确。AI研究公司SemiAnalysis在发现自己的GPU推理研究被标记后,成为首批公开批评这一机制的机构之一。
妥协与代价:透明化带来的新挑战
Anthropic的让步中直接承认了它正在接受的权衡。让防护措施变得透明,也意味着它们更容易被绕过,因此分类器为了保持效果必须扩大捕获范围。在公司调整系统期间,更多的误报——即合法的机器学习工作被捕获并转接——将会出现。Anthropic表示正在“以最快速度”减少误报,但没有给出时间表。
该公司同时也在对生物和网络安全分类器进行同样的清理工作,此前这些分类器也因标记无害的研究提示而招致不满。
尽管如此,剩下的担忧在于:Anthropic并没有取消这类限制,只是将其公开化。对于那些认为限制本身就不合理的人来说,周四的道歉只算部分解决。Fable 5在6月22日前仍可免费使用(Pro、Max、Team和Enterprise计划),之后将仅限API使用额度。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种