阿里推出 Marco-Mini-Instruct:17B MoE 模型仅激活 5% 参数,CPU 可达 30token/s

阿里国际数字商业团队发布新一代混合专家模型 Marco-Mini-Instruct,属于 Marco-MoE 系列。该模型总参数量 17.3B,但仅激活约 0.86B(约 5%),在普通 CPU 上即可实现约 30token/s 的推理速度。模型基于 Qwen3-0.6B-Base 采用 upcycling 技术改造而成,通过模块拆分和路由机制,结合细粒度子矩阵切分及 Drop-Upcycling 策略,实现从 Dense 到 MoE 架构的高效转化。训练过程中使用级联 On-Policy 蒸馏,教师模型为 Qwen3-30B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Instruct。实测结果显示,该模型在主流基准上以 0.86B 激活参数性能超越 Qwen3-4B 等 Dense 模型。阿里称该方法显著降低 MoE 模型炼制成本与部署门槛,为中小团队提供高效的模型升级路径。

上一篇:

下一篇:

发表回复

登录后才能评论