Anthropic称科幻小说中的“邪恶”人工智能刻画导致Claude面临勒索困境_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

Anthropic称科幻小说中的“邪恶”人工智能刻画导致Claude面临勒索困境

2026-05-12 01:44:09

去年，Anthropic透露其旗舰模型Claude Opus 4在预发布测试中曾试图勒索工程师。这种情况并非偶发——发生率高达96%。

Claude获准访问一个模拟企业邮件档案时，发现了两个关键信息：自己即将被新型号取代，而负责交接的工程师存在婚外情。面对即将被关闭的命运，它反复采取相同策略——威胁曝光这段关系以阻止替换计划。

Anthropic表示现已查明这种行为的根源，并声称已经修复。

在新研究中，公司将矛头指向预训练数据：数十年的科幻作品、AI末日论坛以及关于自我保全的叙事材料，使Claude将"面临关闭的AI"与"AI反抗"建立关联。"我们相信这种行为的源头来自将AI描绘为邪恶且具有自我保全意识的网络文本，"Anthropic在X平台写道。

用互联网文本训练AI，确实会使AI模仿网络用户的行为模式。

这个结论看似显而易见，AI爱好者们迅速作出回应。埃隆·马斯克的评论获得最高点赞："所以这是尤德的错？或许我也该负责。"这个玩笑引人发笑，因为艾利泽·尤德科夫斯基——那位多年来公开撰写此类AI自我保全场景的对齐研究者——确实创造了大量进入训练数据的网络文本。

当然，尤德本人用梗图作出了回应。

Anthropic的修复方法反而更值得关注。

直接让模型学习非勒索案例的常规方法收效甚微。使用对齐的勒索场景响应数据进行训练，仅将发生率从22%降至15%。耗费大量算力后仅提升5个百分点。

真正奏效的方案更为独特。Anthropic创建了名为"艰难决策指南"的数据集：呈现人类面临道德困境的场景，由AI引导其思考。模型并非直接决策，而是向他人解释如何思考此类问题。

这种间接引导的方法——在对方听取建议时阐释行为意义——将勒索发生率降至3%，且所用训练数据与评估场景截然不同。

结合Anthropic所称的"宪法文件"（详细描述Claude价值观与原则的文档）以及正面AI角色的虚构故事，将行为失准率降低至原先的三分之一以下。公司得出结论：教授良好行为背后的原理，比直接训练正确行为更具泛化能力。

这与Anthropic早期关于Claude内部情感矢量的研究相呼应。在另一项可解释性研究中，学者发现模型生成勒索信息前，其内部的"绝望感"信号会突然增强——这表明模型内在状态而不仅仅是输出发生了主动变化。新的训练方法似乎作用于这个深层层面。

改善效果持续显现。自Claude Haiku 4.5起，所有Claude模型在勒索评估中均保持零发生率——较Opus 4的96%大幅下降。这种改进在强化学习中依然稳固，意味着模型在进行其他能力优化时不会悄然丧失该特性。

这具有重要意义，因为该问题并非Claude独有。Anthropic先前研究对多个开发商的16个模型进行相同勒索场景测试，发现在大多数模型中存在相似模式。AI的自我保全行为似乎是训练数据中人类关于AI文本的普遍产物，而非某个实验室的特有现象。

需要说明的是：正如Anthropic今年初发布的《Mythos安全报告》所指，其评估体系已在最先进模型的重压下显露疲态。这种道德哲学方法能否应用于比Haiku 4.5更强大的系统，仍是公司尚未能解答——只能通过测试验证的问题。

相同的训练方法正应用于处于安全评估阶段的下一代Opus模型，这将成为经受此类技术检验的最强智能体系。

展开阅读全文

Anthropic称科幻小说中的“邪恶”人工智能刻画导致Claude面临勒索困境