Anthropic Claude Opus 4.8发布：编程更强、安防更智，高价依旧_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

Anthropic Claude Opus 4.8发布：编程更强、安防更智，高价依旧

2026-05-29 02:54:19

模型迭代仅用六周

从Opus 4.7演进至4.8版本，Anthropic仅耗费了六周时间。新版模型在基准测试中展现出更快的速度与更强的智能，并搭载了一系列新功能，但价格保持不变：每百万输入token仍为5美元，每百万输出token为25美元。

此外推出的快速模式能以2.5倍速运行相同模型，每百万token收费10美元输入与50美元输出。Anthropic表示此速率较旧版模型的快速模式降低三倍，这亦侧面反映出此前定价之高。

核心基准测试表现

SWE-bench专业版是衡量模型能力的关键指标，通过检验AI解决真实生产环境中多语言复杂编程问题的通过率进行评估。在该测试中，Opus 4.8达到69.2%，较4.7版的64.3%显著提升；同期OpenAI的GPT-5.5获得58.6%，谷歌Gemini 3.1 Pro则为54.2%。在价格不变的前提下，这一进步尤为可贵。

在涵盖数十个学科的专家级综合测评中，Opus 4.8无工具辅助得分为49.8%，借助工具达到57.9%，领先于所有竞品。针对软件界面操作等实际计算机使用场景的测试中，其以83.4%的得分略超4.7版的82.8%。

唯一落后的是命令行任务性能测试：GPT-5.5以78.2%领先，Opus 4.8虽以74.6%优于旧版的66.1%及Gemini的70.3%，但仍居次席。

可调控的思考强度

Anthropic新增模型思考强度调节功能。“高”为默认模式，可妥善处理多数任务；“特高”模式会为复杂问题分配更多算力；“极限”模式则专为高难度场景设计。而“低”与“中”模式通过减少token分配提升速度，相应会牺牲部分精度。

该功能已面向全计划用户开放。官方表示默认的“高”强度消耗token量与Opus 4.7相近但效果更优，这既体现了技术突破，也传递出明确的产品信号。

需要注意的是，新版分词器会导致单任务消耗更多token。若用户选择功能更强大的Opus而非轻量版模型处理日常任务，使用成本将显著增加。为应对高强度模式产生的额外消耗，平台已同步提升token调用限额。

安全性与可靠性提升

据对齐团队披露，Opus 4.8在支持用户自主性与维护用户利益等社会性指标上创下新高。具体而言，其欺骗率与误用协作率较4.7版大幅下降，表现已接近Anthropic目前最严格的内部模型。

新版对代码漏洞的识别能力亦提升四倍，能更有效标记自身代码缺陷。值得说明的是，该对照模型定位高于Opus系列，目前仅限特定网络安全研究机构通过专项计划试用。

研究显示该高级模型可自主完成长达32步的企业网络攻防推演，此类任务通常需专业团队耗时20小时。由于需强化安全防护机制，该级别模型预计将于近期逐步开放。

动态工作流上线

同期推出的动态工作流功能已进入研究预览阶段。该特性允许模型自主编写协调脚本，在单会话中并行启动多个子智能体，验证输出结果后统一反馈，其运作模式与其他先进系统类似。

该功能面向企业级用户开放，平台明确提示其token消耗量将显著高于标准会话。

市场定价差异显著

Anthropic的定价策略与近期国内模型形成鲜明对比。某国产模型近期将永久性折扣调整至每百万输入token0.435美元，输出token0.87美元，另一厂商模型亦通过开放平台提供相近费率。

相比之下，Opus快速模式单次输出token成本约达国产模型的57倍。企业若大规模采用高阶模型，推理成本可能快速攀升至百万美元量级。

Anthropic以质量与安全性回应价格差距：在专业编程测试中，Opus 4.8表现优于国产模型；在对齐指标上，竞品亦未达到其公布的基准。对于金融、法律等高风险场景，模型的可靠性与安全性至关重要；但对多数用户而言，价格差距仍是不可忽视的因素。

实际开发测试对比

我们通过构建三维僵尸游戏对三大主流模型进行编程测试，均采用高思考强度配置且不进行重试。

GPT-5.5速度最快但未实现僵尸视觉效果与音效；国产模型在第二顺位完成，具备完整的角色系统与游戏机制；Opus 4.8耗时约为前者的三倍，但交付了最佳视觉设计、角色模型与游戏架构，综合输出质量最高。

尽管表现优异，考虑到显著的成本差异，开发者仍需权衡其性价比优势。完整评测报告即将发布，但现有测试已表明：在维持相同定价的前提下，Opus 4.8在此类任务中的编程能力已超越前代及主要竞品，这相当于为原有付费用户提供了免费升级。

展开阅读全文

我的自选