这款Frankenstein式人工智能融合了Claude Opus、GLM与Qwen——综合表现超越顶级模型_新闻

免责声明：内容不构成买卖依据，投资有风险，入市需谨慎！

这款Frankenstein式人工智能融合了Claude Opus、GLM与Qwen——综合表现超越顶级模型

2026-04-22 02:09:02

你以为Qwopus将Qwen与Opus结合就已足够惊艳？

一位知识渊博且时间充裕的AI工程师凯尔·赫斯林，以同样的思路为基础，将当前顶尖推理模型之一的GLM融入其中。最终诞生了一个拥有180亿参数的混合模型，它不仅能在廉价显卡上运行，性能甚至超越了阿里巴巴最新的350亿参数模型。

参数的意义

参数是神经网络训练过程中嵌入的数值，如同神经网络可调节的旋钮。参数越多，模型处理的知识与复杂性就越强，同时运行所需的内存也越大。

赫斯林作为AI基础设施工程师，将两版精调模型进行了层叠组合：前半部分采用融合了Claude 4.6 Opus推理风格的Qwopus 3.5-9B-v3.5的0至31层，后半部分则选用基于相同Qwen基础、通过z.AI的GLM-5.1教师模型推理数据训练而成的Qwen 3.5-9B-GLM5.1-Distill-v1的32至63层。

创新架构设计

这一设计的核心假设是：让模型在前半段推理中采用Opus式的结构化规划，后半段则运用GLM的问题分解框架，最终形成总计64层的统一模型。

该方法被称为“直通式混合合并”——不进行权重混合或平均，仅进行原始层堆叠。由于现有工具不支持Qwen 3.5的混合线性/全局注意力架构，赫斯林不得不从零编写自己的合并脚本。最终模型在44项能力测试中通过了40项，以仅需9.2GB显存的Q4_K_M量化版本，击败了需要22GB显存的阿里巴巴Qwen 3.6-35B-A3B混合专家模型。

理论上，一块NVIDIA RTX 3060显卡即可流畅运行。

挑战与突破

赫斯林坦言构建此模型并非易事。原始合并曾产生混乱的代码输出，但他发布的测试版本仍在爱好者群体中引起了热烈反响。最终解决方案是采用“修复式精调”——本质上是针对所有注意力机制与投影层的QLoRA技术，通过嵌入辅助代码深度调整输出结果。

实际测试发现，虽然将Qwen、Claude Opus和GLM 5.1集成到本地设备极具吸引力，但该模型因过度精于推理而容易陷入“过度思考”。在M1芯片MacBook上运行MLX量化版本时，常规测试游戏生成任务因推理链过长触及令牌上限，最终仅产生冗长的推理过程而未能输出可用结果。这对于希望在消费级硬件上运行严肃应用的用户而言，构成了实际使用障碍。

即使降低任务难度，挑战依然存在。一个简单的“编写贪吃蛇游戏”指令，其推理过程就耗时超过40分钟。