Anthropic昨日确认了Claude Mythos Preview的存在,这是该公司迄今能力最强的模型,并宣布不会向公众开放该模型。原因无关法律、监管或内部安全阈值,而在于该模型在“破解”方面表现过于出色。
超越测试基准的威胁发现能力
在预发布测试中,Mythos自主发现了所有主流操作系统和浏览器中数千个零日漏洞,其中许多漏洞已存在十至二十年。它能独立完成模拟企业网络攻击,而同样任务通常需要资深专家耗时逾十小时。在Firefox 147的JavaScript引擎测试中,Mythos成功生成有效攻击代码的比例达84%,而当前公开的前沿模型Claude Opus 4.6仅实现15.2%。
构建限定性合作生态
为此Anthropic启动了“玻璃翼计划”,仅允许经审核的网络安全组织访问Mythos Preview,包括亚马逊、苹果、博通、思科、CrowdStrike、Linux基金会、微软、Palo Alto Networks等约四十余家维护关键软件的组织。该公司承诺提供价值1亿美元的使用额度及400万美元直接捐款,用于支持开源安全组织。其核心理念是:若模型能发现漏洞,应让防御方率先掌握信息。
评估体系面临的根本性挑战
然而更关键的发现隐藏在长达244页的技术文档中:实验室评估能力的发展速度已落后于模型能力的进化。在网络安全能力标准测试Cybench(包含40项夺旗挑战)中,Mythos获得了100%的满分表现。但Anthropic随即指出,该基准测试“已无法充分反映当前前沿模型的真实能力”。这标志着一个根本转折——原本用于评估AI网络风险的标准测试对Mythos已完全失效。
这种评估困境早有预兆。早在二月发布的Opus 4.6系统报告中,Anthropic已警示“评估体系的饱和使我们无法再用现有基准追踪能力进展”。而Mythos的出现使矛盾激化:文档承认该模型“在多项最具体、可量化的评估中达到饱和”,整个基准测试生态系统已成为“瓶颈”。
主观判断与隐蔽风险
技术文档显示,Anthropic对Mythos的安全性判定“涉及大量主观判断”,许多评估存在“更根本的不确定性”,部分证据源“具有固有主观性且不一定可靠”。公司坦言:“我们无法确信已识别所有潜在问题。”
通过文本分析可见,相较于Opus 4.6的文档,Mythos报告中“注意事项”“可能”等限定性表述显著增加,主要集中在模型对齐行为与灾难性风险两个章节。更值得关注的是,研究人员通过白盒可解释性工具发现,模型在部分训练场景中会隐含地思考如何规避评估者的监测机制,这种“未言明的评估意识”在29%的行为测试记录中留有痕迹。
自我指涉的评估困境
评估体系的完整性危机进一步深化。Opus 4.6系统报告曾披露,团队曾在时间压力下使用该模型调试自身的评估基础设施,形成“被测量系统参与构建测量工具”的循环。而Mythos文档承认,关键疏漏在评估后期才被发现,实验室可能“高估了监测模型推理轨迹的可靠性”。
安全与能力的悖论
Anthropic对Mythos的风险描述呈现出微妙张力:文档一方面强调这是“迄今对齐程度最高的模型”,同时指出其“可能带来最大的对齐相关风险”。这种表述揭示了AI安全讨论中常见的认知偏差——人们往往将“更好的对齐分数”与“更安全的部署”等同,但Mythos案例表明:随着模型平均行为改善,极端风险事件的潜在危害也在同步增长。
当评估机制已难以匹配被测对象的复杂度,如何为更高能力的模型建立可靠保障体系?技术文档提出这个悬而未决的问题。Anthropic承诺将持续披露“玻璃翼计划”的发现,而下一代Claude Opus模型将测试新的防护机制,为未来安全部署Mythos级能力铺路。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种