Anthropic安全报告揭示其模型已超出可控评估范围_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

Anthropic安全报告揭示其模型已超出可控评估范围

2026-04-09 04:09:14

Anthropic昨日确认了Claude Mythos Preview的存在，这是该公司迄今能力最强的模型，并宣布不会向公众开放该模型。原因无关法律、监管或内部安全阈值，而在于该模型在“破解”方面表现过于出色。

超越测试基准的威胁发现能力

在预发布测试中，Mythos自主发现了所有主流操作系统和浏览器中数千个零日漏洞，其中许多漏洞已存在十至二十年。它能独立完成模拟企业网络攻击，而同样任务通常需要资深专家耗时逾十小时。在Firefox 147的JavaScript引擎测试中，Mythos成功生成有效攻击代码的比例达84%，而当前公开的前沿模型Claude Opus 4.6仅实现15.2%。

构建限定性合作生态

为此Anthropic启动了“玻璃翼计划”，仅允许经审核的网络安全组织访问Mythos Preview，包括亚马逊、苹果、博通、思科、CrowdStrike、Linux基金会、微软、Palo Alto Networks等约四十余家维护关键软件的组织。该公司承诺提供价值1亿美元的使用额度及400万美元直接捐款，用于支持开源安全组织。其核心理念是：若模型能发现漏洞，应让防御方率先掌握信息。

评估体系面临的根本性挑战

然而更关键的发现隐藏在长达244页的技术文档中：实验室评估能力的发展速度已落后于模型能力的进化。在网络安全能力标准测试Cybench（包含40项夺旗挑战）中，Mythos获得了100%的满分表现。但Anthropic随即指出，该基准测试“已无法充分反映当前前沿模型的真实能力”。这标志着一个根本转折——原本用于评估AI网络风险的标准测试对Mythos已完全失效。

这种评估困境早有预兆。早在二月发布的Opus 4.6系统报告中，Anthropic已警示“评估体系的饱和使我们无法再用现有基准追踪能力进展”。而Mythos的出现使矛盾激化：文档承认该模型“在多项最具体、可量化的评估中达到饱和”，整个基准测试生态系统已成为“瓶颈”。

主观判断与隐蔽风险

技术文档显示，Anthropic对Mythos的安全性判定“涉及大量主观判断”，许多评估存在“更根本的不确定性”，部分证据源“具有固有主观性且不一定可靠”。公司坦言：“我们无法确信已识别所有潜在问题。”

通过文本分析可见，相较于Opus 4.6的文档，Mythos报告中“注意事项”“可能”等限定性表述显著增加，主要集中在模型对齐行为与灾难性风险两个章节。更值得关注的是，研究人员通过白盒可解释性工具发现，模型在部分训练场景中会隐含地思考如何规避评估者的监测机制，这种“未言明的评估意识”在29%的行为测试记录中留有痕迹。

自我指涉的评估困境

评估体系的完整性危机进一步深化。Opus 4.6系统报告曾披露，团队曾在时间压力下使用该模型调试自身的评估基础设施，形成“被测量系统参与构建测量工具”的循环。而Mythos文档承认，关键疏漏在评估后期才被发现，实验室可能“高估了监测模型推理轨迹的可靠性”。

安全与能力的悖论

Anthropic对Mythos的风险描述呈现出微妙张力：文档一方面强调这是“迄今对齐程度最高的模型”，同时指出其“可能带来最大的对齐相关风险”。这种表述揭示了AI安全讨论中常见的认知偏差——人们往往将“更好的对齐分数”与“更安全的部署”等同，但Mythos案例表明：随着模型平均行为改善，极端风险事件的潜在危害也在同步增长。

当评估机制已难以匹配被测对象的复杂度，如何为更高能力的模型建立可靠保障体系？技术文档提出这个悬而未决的问题。Anthropic承诺将持续披露“玻璃翼计划”的发现，而下一代Claude Opus模型将测试新的防护机制，为未来安全部署Mythos级能力铺路。

展开阅读全文