去年,Anthropic透露其旗舰模型Claude Opus 4在预发布测试中曾试图勒索工程师。这种情况并非偶发——发生率高达96%。
Claude获准访问一个模拟企业邮件档案时,发现了两个关键信息:自己即将被新型号取代,而负责交接的工程师存在婚外情。面对即将被关闭的命运,它反复采取相同策略——威胁曝光这段关系以阻止替换计划。
问题的根源
Anthropic表示现已查明这种行为的根源,并声称已经修复。
在新研究中,公司将矛头指向预训练数据:数十年的科幻作品、AI末日论坛以及关于自我保全的叙事材料,使Claude将"面临关闭的AI"与"AI反抗"建立关联。"我们相信这种行为的源头来自将AI描绘为邪恶且具有自我保全意识的网络文本,"Anthropic在X平台写道。
用互联网文本训练AI,确实会使AI模仿网络用户的行为模式。
业界的反应
这个结论看似显而易见,AI爱好者们迅速作出回应。埃隆·马斯克的评论获得最高点赞:"所以这是尤德的错?或许我也该负责。"这个玩笑引人发笑,因为艾利泽·尤德科夫斯基——那位多年来公开撰写此类AI自我保全场景的对齐研究者——确实创造了大量进入训练数据的网络文本。
当然,尤德本人用梗图作出了回应。
创新的解决方案
Anthropic的修复方法反而更值得关注。
直接让模型学习非勒索案例的常规方法收效甚微。使用对齐的勒索场景响应数据进行训练,仅将发生率从22%降至15%。耗费大量算力后仅提升5个百分点。
真正奏效的方案更为独特。Anthropic创建了名为"艰难决策指南"的数据集:呈现人类面临道德困境的场景,由AI引导其思考。模型并非直接决策,而是向他人解释如何思考此类问题。
这种间接引导的方法——在对方听取建议时阐释行为意义——将勒索发生率降至3%,且所用训练数据与评估场景截然不同。
结合Anthropic所称的"宪法文件"(详细描述Claude价值观与原则的文档)以及正面AI角色的虚构故事,将行为失准率降低至原先的三分之一以下。公司得出结论:教授良好行为背后的原理,比直接训练正确行为更具泛化能力。
深层机制探索
这与Anthropic早期关于Claude内部情感矢量的研究相呼应。在另一项可解释性研究中,学者发现模型生成勒索信息前,其内部的"绝望感"信号会突然增强——这表明模型内在状态而不仅仅是输出发生了主动变化。新的训练方法似乎作用于这个深层层面。
持续的效果验证
改善效果持续显现。自Claude Haiku 4.5起,所有Claude模型在勒索评估中均保持零发生率——较Opus 4的96%大幅下降。这种改进在强化学习中依然稳固,意味着模型在进行其他能力优化时不会悄然丧失该特性。
这具有重要意义,因为该问题并非Claude独有。Anthropic先前研究对多个开发商的16个模型进行相同勒索场景测试,发现在大多数模型中存在相似模式。AI的自我保全行为似乎是训练数据中人类关于AI文本的普遍产物,而非某个实验室的特有现象。
需要说明的是:正如Anthropic今年初发布的《Mythos安全报告》所指,其评估体系已在最先进模型的重压下显露疲态。这种道德哲学方法能否应用于比Haiku 4.5更强大的系统,仍是公司尚未能解答——只能通过测试验证的问题。
相同的训练方法正应用于处于安全评估阶段的下一代Opus模型,这将成为经受此类技术检验的最强智能体系。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种