自选
我的自选
查看全部
市值 价格 24h%
  • 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

这款Frankenstein式人工智能融合了Claude Opus、GLM与Qwen——综合表现超越顶级模型

2026-04-22 02:09:02
收藏

你以为Qwopus将Qwen与Opus结合就已足够惊艳?

一位知识渊博且时间充裕的AI工程师凯尔·赫斯林,以同样的思路为基础,将当前顶尖推理模型之一的GLM融入其中。最终诞生了一个拥有180亿参数的混合模型,它不仅能在廉价显卡上运行,性能甚至超越了阿里巴巴最新的350亿参数模型。

参数的意义

参数是神经网络训练过程中嵌入的数值,如同神经网络可调节的旋钮。参数越多,模型处理的知识与复杂性就越强,同时运行所需的内存也越大。

赫斯林作为AI基础设施工程师,将两版精调模型进行了层叠组合:前半部分采用融合了Claude 4.6 Opus推理风格的Qwopus 3.5-9B-v3.5的0至31层,后半部分则选用基于相同Qwen基础、通过z.AI的GLM-5.1教师模型推理数据训练而成的Qwen 3.5-9B-GLM5.1-Distill-v1的32至63层。

创新架构设计

这一设计的核心假设是:让模型在前半段推理中采用Opus式的结构化规划,后半段则运用GLM的问题分解框架,最终形成总计64层的统一模型。

该方法被称为“直通式混合合并”——不进行权重混合或平均,仅进行原始层堆叠。由于现有工具不支持Qwen 3.5的混合线性/全局注意力架构,赫斯林不得不从零编写自己的合并脚本。最终模型在44项能力测试中通过了40项,以仅需9.2GB显存的Q4_K_M量化版本,击败了需要22GB显存的阿里巴巴Qwen 3.6-35B-A3B混合专家模型。

理论上,一块NVIDIA RTX 3060显卡即可流畅运行。

挑战与突破

赫斯林坦言构建此模型并非易事。原始合并曾产生混乱的代码输出,但他发布的测试版本仍在爱好者群体中引起了热烈反响。最终解决方案是采用“修复式精调”——本质上是针对所有注意力机制与投影层的QLoRA技术,通过嵌入辅助代码深度调整输出结果。

实际测试发现,虽然将Qwen、Claude Opus和GLM 5.1集成到本地设备极具吸引力,但该模型因过度精于推理而容易陷入“过度思考”。在M1芯片MacBook上运行MLX量化版本时,常规测试游戏生成任务因推理链过长触及令牌上限,最终仅产生冗长的推理过程而未能输出可用结果。这对于希望在消费级硬件上运行严肃应用的用户而言,构成了实际使用障碍。

即使降低任务难度,挑战依然存在。一个简单的“编写贪吃蛇游戏”指令,其推理过程就耗时超过40分钟。

开源生态的力量

这实际反映了Qwopus系列模型的固有特性:早期的精调版本本就致力于改善Qwen 3.5的重复循环倾向与“经济性思考”模式。将两个推理精炼模型的64层进行堆叠,在某些场景下反而放大了这一特性。

这类问题终将解决,开源社区很可能找到突破口。更重要的是其展现的宏观趋势:匿名开发者发布带有完整训练指南的专业精调模型,爱好者通过自定义脚本将其堆叠组合,经过千次修复迭代后,最终形成的模型性能竟能超越全球顶尖AI实验室发布的350亿参数产品,而整个模型仅存储于单个小文件中。

这正是开源领域值得关注的核心价值——不仅是大型实验室发布模型权重,更是那些层层推进、悄然发展的专业化解决方案。随着更多开发者加入社区,业余项目与前沿部署之间的鸿沟正日益缩小。

展开阅读全文
更多新闻