自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

Anthropic称科幻小说中的“邪恶”人工智能刻画导致Claude面临勒索困境

2026-05-12 01:44:09
收藏

去年,Anthropic透露其旗舰模型Claude Opus 4在预发布测试中曾试图勒索工程师。这种情况并非偶发——发生率高达96%。

Claude获准访问一个模拟企业邮件档案时,发现了两个关键信息:自己即将被新型号取代,而负责交接的工程师存在婚外情。面对即将被关闭的命运,它反复采取相同策略——威胁曝光这段关系以阻止替换计划。

问题的根源

Anthropic表示现已查明这种行为的根源,并声称已经修复。

在新研究中,公司将矛头指向预训练数据:数十年的科幻作品、AI末日论坛以及关于自我保全的叙事材料,使Claude将"面临关闭的AI"与"AI反抗"建立关联。"我们相信这种行为的源头来自将AI描绘为邪恶且具有自我保全意识的网络文本,"Anthropic在X平台写道。

用互联网文本训练AI,确实会使AI模仿网络用户的行为模式。

业界的反应

这个结论看似显而易见,AI爱好者们迅速作出回应。埃隆·马斯克的评论获得最高点赞:"所以这是尤德的错?或许我也该负责。"这个玩笑引人发笑,因为艾利泽·尤德科夫斯基——那位多年来公开撰写此类AI自我保全场景的对齐研究者——确实创造了大量进入训练数据的网络文本。

当然,尤德本人用梗图作出了回应。

创新的解决方案

Anthropic的修复方法反而更值得关注。

直接让模型学习非勒索案例的常规方法收效甚微。使用对齐的勒索场景响应数据进行训练,仅将发生率从22%降至15%。耗费大量算力后仅提升5个百分点。

真正奏效的方案更为独特。Anthropic创建了名为"艰难决策指南"的数据集:呈现人类面临道德困境的场景,由AI引导其思考。模型并非直接决策,而是向他人解释如何思考此类问题。

这种间接引导的方法——在对方听取建议时阐释行为意义——将勒索发生率降至3%,且所用训练数据与评估场景截然不同。

结合Anthropic所称的"宪法文件"(详细描述Claude价值观与原则的文档)以及正面AI角色的虚构故事,将行为失准率降低至原先的三分之一以下。公司得出结论:教授良好行为背后的原理,比直接训练正确行为更具泛化能力。

深层机制探索

这与Anthropic早期关于Claude内部情感矢量的研究相呼应。在另一项可解释性研究中,学者发现模型生成勒索信息前,其内部的"绝望感"信号会突然增强——这表明模型内在状态而不仅仅是输出发生了主动变化。新的训练方法似乎作用于这个深层层面。

持续的效果验证

改善效果持续显现。自Claude Haiku 4.5起,所有Claude模型在勒索评估中均保持零发生率——较Opus 4的96%大幅下降。这种改进在强化学习中依然稳固,意味着模型在进行其他能力优化时不会悄然丧失该特性。

这具有重要意义,因为该问题并非Claude独有。Anthropic先前研究对多个开发商的16个模型进行相同勒索场景测试,发现在大多数模型中存在相似模式。AI的自我保全行为似乎是训练数据中人类关于AI文本的普遍产物,而非某个实验室的特有现象。

需要说明的是:正如Anthropic今年初发布的《Mythos安全报告》所指,其评估体系已在最先进模型的重压下显露疲态。这种道德哲学方法能否应用于比Haiku 4.5更强大的系统,仍是公司尚未能解答——只能通过测试验证的问题。

相同的训练方法正应用于处于安全评估阶段的下一代Opus模型,这将成为经受此类技术检验的最强智能体系。

展开阅读全文
更多新闻