阿里推出 Marco-Mini-Instruct：17B MoE 模型仅激活 5% 参数，CPU 可达 30token/s

阿里国际数字商业团队发布新一代混合专家模型 Marco-Mini-Instruct，属于 Marco-MoE 系列。该模型总参数量 17.3B，但仅激活约 0.86B（约 5%），在普通 CPU 上即可实现约 30token/s 的推理速度。模型基于 Qwen3-0.6B-Base 采用 upcycling 技术改造而成，通过模块拆分和路由机制，结合细粒度子矩阵切分及 Drop-Upcycling 策略，实现从 Dense 到 MoE 架构的高效转化。训练过程中使用级联 On-Policy 蒸馏，教师模型为 Qwen3-30B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Instruct。实测结果显示，该模型在主流基准上以 0.86B 激活参数性能超越 Qwen3-4B 等 Dense 模型。阿里称该方法显著降低 MoE 模型炼制成本与部署门槛，为中小团队提供高效的模型升级路径。

阿里推出 Marco-Mini-Instruct：17B MoE 模型仅激活 5% 参数，CPU 可达 30token/s

发表回复