DeepReinforce 发布 Ornith-1.0:开源编程模型家族
人工智能研究实验室 DeepReinforce 此前因 CUDA-L1 和 IterX 代码智能体优化循环而闻名。上周晚些时候,该实验室发布了 Ornith-1.0——一个开源编程模型家族,已在 Hugging Face 上架,提供四种基于参数数量的规格:90亿、310亿、350亿(混合专家模型),以及一款3970亿参数的旗舰混合专家模型。所有模型均采用 MIT 许可证,无地域限制。
参数大致相当于模型在训练中可处理的调节旋钮和配置数量。参数越多,模型能力越强。90亿参数的模型被视为小型模型,足以在性能良好的智能手机上运行,但无法可靠地执行任何繁重的推理任务。而3970亿参数的模型能力则强得多,但需要强大的计算资源,这种资源在消费级硬件上无法获得。
实验室将其描述为“一个专为智能体编程任务设计的、能自我改进的开源模型家族”。其中“智能体”一词承载了大量含义。
人们接触的大多数人工智能都是对话式的:你输入,它回复,交流就此结束。而智能体人工智能则不同——它会接受一个任务,并采取行动完成它,无需人类在每一步进行引导。在编程语境下,这意味着一个人工智能可以读取文件、运行测试、识别失败原因、修复代码,并循环往复直至任务完成。
因此,智能体人工智能意味着大部分时间无需有人守在键盘前。这正是其核心价值所在。这也是2026年最具商业价值的进展方向——那些能在无人监督的情况下完成20步开发工作流程的模型,其价值远超那些按需编写简洁函数的模型。
然而,大多数大型语言模型仍然是以人类反馈为中心设计的。
大多数人工智能编程智能体都与一个人工设计的框架配对使用——这套固定规则规定了智能体如何组织工作:何时调用工具、如何处理错误、如何分解多步骤问题。而 Ornith 则“将脚手架视为一个可学习的对象,与策略共同进化”。
翻译过来就是:它不会继承他人的工作手册,而是发展出自己的工作手册。
在强化学习过程中,每一步训练都分两个阶段进行。模型首先读取任务,并提出一个精炼的策略来应对该任务。然后,它使用该策略生成解决方案。
结果带来的奖励会反馈到这两个阶段——因此模型会针对编写更好的策略进行优化,而不仅仅是编写更好的代码。成千上万次地重复这个过程后,特定任务的路径就会自然涌现,无需人类工程师进行设计。
DeepReinforce 也非常重视奖励黑客行为。如果模型可以编写自己的训练脚手架,那么理论上它也能编写一个欺骗验证器的脚手架——例如接触一个文件,使其看起来像完成了任务,而实际上并未完成工作。三道防御层阻止了这种行为:环境和测试套件是不可变的,且超出模型访问范围;一个确定性监视器会标记任何试图访问受限路径或修改验证脚本的行为;此外,一个冻结的评判模型作为自动验证器之上的否决层。
旗舰版3970亿参数的模型在 SWE-bench Verified 上取得了82.4分的成绩——该测试会给予人工智能一个来自开源 GitHub 仓库的真实漏洞,它必须在未见测试套件的情况下修复该漏洞,最终得分为成功解决问题的百分比。
这一成绩在同一测试中超越了 Claude Opus 4.7 的80.8分和 DeepSeek-V4-Pro 的80.6分。在 Terminal Bench 2.1(包含89个在容器化终端环境中运行的任务,范围从调试异步代码到解决安全漏洞,按完成率评分)中,它获得了77.5分,而 Claude Opus 4.7 为70.3分。
鉴于 SWE-bench 存在污染问题已被公开质疑——OpenAI 今年早些时候曾表示,模型通过记忆训练中见过的基准测试解决方案来虚增分数——Ornith 还报告了在 SWE-bench Pro 上的成绩。这是一个难度更高的版本,使用了更多样化、泄露较少的代码库,评分方式相同。3970亿参数模型在此得分为62.2分。虽然明显更低,但在行业内仍具竞争力,且仍优于 Deepseek V4 Pro。
90亿参数模型可能更有看点。它在 SWE-bench Verified 上取得了69.4分——高于 Gemma 4-31B 的52分,并且与 Qwen 3.5-35B 的70分相当,尽管其规模要小3到4倍。
Ornith-1.0 明确不是一个通用型人工智能。模型自己的文档指出,它在智能体编程之外的任务上可能表现不佳。如果你需要人工智能总结文档、帮你写博士论文或起草邮件,Ornith-1.0 不是合适的选择。
它针对一个狭窄的问题集进行了优化:开发者工作流程——其中一个人工智能智能体接收任务描述,在代码仓库或终端会话中操作,并在无需干预的情况下完成多步工作。这是一个为已经运行智能体基础设施的人打造的工具,而不是为试图判断人工智能是否值得使用的人准备的。
“超越 Claude”的标题是真实的,但需要结合语境。正如 Decrypt 所报道的,每个实验室现在都在追逐智能体编程评估上的表现,因为那里才是体现有用性能差异的地方。
Ornith-1.0-397B 确实在两个不同的编程基准测试上超越了 Claude Opus 4.7,但 Anthropic 当前的旗舰模型 Claude Opus 4.8 得分更高。真正有可比性的对比是在开源类别内、同等参数规模下、针对编程特定智能体任务的比较。
对于构建自托管编程流水线、智能体基础设施或类似编程密集型工作的开发者来说,在边缘硬件上运行的小型和中型模型可能确实有用,但对于普通用户而言,或许更适合寻找其他选择。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种