你以为Qwopus将Qwen与Opus结合就已足够惊艳?
一位知识渊博且时间充裕的AI工程师凯尔·赫斯林,以同样的思路为基础,将当前顶尖推理模型之一的GLM融入其中。最终诞生了一个拥有180亿参数的混合模型,它不仅能在廉价显卡上运行,性能甚至超越了阿里巴巴最新的350亿参数模型。
参数的意义
参数是神经网络训练过程中嵌入的数值,如同神经网络可调节的旋钮。参数越多,模型处理的知识与复杂性就越强,同时运行所需的内存也越大。
赫斯林作为AI基础设施工程师,将两版精调模型进行了层叠组合:前半部分采用融合了Claude 4.6 Opus推理风格的Qwopus 3.5-9B-v3.5的0至31层,后半部分则选用基于相同Qwen基础、通过z.AI的GLM-5.1教师模型推理数据训练而成的Qwen 3.5-9B-GLM5.1-Distill-v1的32至63层。
创新架构设计
这一设计的核心假设是:让模型在前半段推理中采用Opus式的结构化规划,后半段则运用GLM的问题分解框架,最终形成总计64层的统一模型。
该方法被称为“直通式混合合并”——不进行权重混合或平均,仅进行原始层堆叠。由于现有工具不支持Qwen 3.5的混合线性/全局注意力架构,赫斯林不得不从零编写自己的合并脚本。最终模型在44项能力测试中通过了40项,以仅需9.2GB显存的Q4_K_M量化版本,击败了需要22GB显存的阿里巴巴Qwen 3.6-35B-A3B混合专家模型。
理论上,一块NVIDIA RTX 3060显卡即可流畅运行。
挑战与突破
赫斯林坦言构建此模型并非易事。原始合并曾产生混乱的代码输出,但他发布的测试版本仍在爱好者群体中引起了热烈反响。最终解决方案是采用“修复式精调”——本质上是针对所有注意力机制与投影层的QLoRA技术,通过嵌入辅助代码深度调整输出结果。
实际测试发现,虽然将Qwen、Claude Opus和GLM 5.1集成到本地设备极具吸引力,但该模型因过度精于推理而容易陷入“过度思考”。在M1芯片MacBook上运行MLX量化版本时,常规测试游戏生成任务因推理链过长触及令牌上限,最终仅产生冗长的推理过程而未能输出可用结果。这对于希望在消费级硬件上运行严肃应用的用户而言,构成了实际使用障碍。
即使降低任务难度,挑战依然存在。一个简单的“编写贪吃蛇游戏”指令,其推理过程就耗时超过40分钟。
开源生态的力量
这实际反映了Qwopus系列模型的固有特性:早期的精调版本本就致力于改善Qwen 3.5的重复循环倾向与“经济性思考”模式。将两个推理精炼模型的64层进行堆叠,在某些场景下反而放大了这一特性。
这类问题终将解决,开源社区很可能找到突破口。更重要的是其展现的宏观趋势:匿名开发者发布带有完整训练指南的专业精调模型,爱好者通过自定义脚本将其堆叠组合,经过千次修复迭代后,最终形成的模型性能竟能超越全球顶尖AI实验室发布的350亿参数产品,而整个模型仅存储于单个小文件中。
这正是开源领域值得关注的核心价值——不仅是大型实验室发布模型权重,更是那些层层推进、悄然发展的专业化解决方案。随着更多开发者加入社区,业余项目与前沿部署之间的鸿沟正日益缩小。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种