模型迭代仅用六周
从Opus 4.7演进至4.8版本,Anthropic仅耗费了六周时间。新版模型在基准测试中展现出更快的速度与更强的智能,并搭载了一系列新功能,但价格保持不变:每百万输入token仍为5美元,每百万输出token为25美元。
此外推出的快速模式能以2.5倍速运行相同模型,每百万token收费10美元输入与50美元输出。Anthropic表示此速率较旧版模型的快速模式降低三倍,这亦侧面反映出此前定价之高。
核心基准测试表现
SWE-bench专业版是衡量模型能力的关键指标,通过检验AI解决真实生产环境中多语言复杂编程问题的通过率进行评估。在该测试中,Opus 4.8达到69.2%,较4.7版的64.3%显著提升;同期OpenAI的GPT-5.5获得58.6%,谷歌Gemini 3.1 Pro则为54.2%。在价格不变的前提下,这一进步尤为可贵。
在涵盖数十个学科的专家级综合测评中,Opus 4.8无工具辅助得分为49.8%,借助工具达到57.9%,领先于所有竞品。针对软件界面操作等实际计算机使用场景的测试中,其以83.4%的得分略超4.7版的82.8%。
唯一落后的是命令行任务性能测试:GPT-5.5以78.2%领先,Opus 4.8虽以74.6%优于旧版的66.1%及Gemini的70.3%,但仍居次席。
可调控的思考强度
Anthropic新增模型思考强度调节功能。“高”为默认模式,可妥善处理多数任务;“特高”模式会为复杂问题分配更多算力;“极限”模式则专为高难度场景设计。而“低”与“中”模式通过减少token分配提升速度,相应会牺牲部分精度。
该功能已面向全计划用户开放。官方表示默认的“高”强度消耗token量与Opus 4.7相近但效果更优,这既体现了技术突破,也传递出明确的产品信号。
需要注意的是,新版分词器会导致单任务消耗更多token。若用户选择功能更强大的Opus而非轻量版模型处理日常任务,使用成本将显著增加。为应对高强度模式产生的额外消耗,平台已同步提升token调用限额。
安全性与可靠性提升
据对齐团队披露,Opus 4.8在支持用户自主性与维护用户利益等社会性指标上创下新高。具体而言,其欺骗率与误用协作率较4.7版大幅下降,表现已接近Anthropic目前最严格的内部模型。
新版对代码漏洞的识别能力亦提升四倍,能更有效标记自身代码缺陷。值得说明的是,该对照模型定位高于Opus系列,目前仅限特定网络安全研究机构通过专项计划试用。
研究显示该高级模型可自主完成长达32步的企业网络攻防推演,此类任务通常需专业团队耗时20小时。由于需强化安全防护机制,该级别模型预计将于近期逐步开放。
动态工作流上线
同期推出的动态工作流功能已进入研究预览阶段。该特性允许模型自主编写协调脚本,在单会话中并行启动多个子智能体,验证输出结果后统一反馈,其运作模式与其他先进系统类似。
该功能面向企业级用户开放,平台明确提示其token消耗量将显著高于标准会话。
市场定价差异显著
Anthropic的定价策略与近期国内模型形成鲜明对比。某国产模型近期将永久性折扣调整至每百万输入token0.435美元,输出token0.87美元,另一厂商模型亦通过开放平台提供相近费率。
相比之下,Opus快速模式单次输出token成本约达国产模型的57倍。企业若大规模采用高阶模型,推理成本可能快速攀升至百万美元量级。
Anthropic以质量与安全性回应价格差距:在专业编程测试中,Opus 4.8表现优于国产模型;在对齐指标上,竞品亦未达到其公布的基准。对于金融、法律等高风险场景,模型的可靠性与安全性至关重要;但对多数用户而言,价格差距仍是不可忽视的因素。
实际开发测试对比
我们通过构建三维僵尸游戏对三大主流模型进行编程测试,均采用高思考强度配置且不进行重试。
GPT-5.5速度最快但未实现僵尸视觉效果与音效;国产模型在第二顺位完成,具备完整的角色系统与游戏机制;Opus 4.8耗时约为前者的三倍,但交付了最佳视觉设计、角色模型与游戏架构,综合输出质量最高。
尽管表现优异,考虑到显著的成本差异,开发者仍需权衡其性价比优势。完整评测报告即将发布,但现有测试已表明:在维持相同定价的前提下,Opus 4.8在此类任务中的编程能力已超越前代及主要竞品,这相当于为原有付费用户提供了免费升级。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种