谷歌发布Gemma4多Token预测起草器推理速度最高提升3倍

谷歌于当地时间5月5日推出Gemma4系列模型的多Token预测（MTP）起草器，通过引入推测解码架构，在保持输出质量和逻辑一致性的前提下，将模型推理速度最高提升约3倍。Gemma4自发布以来下载量已超6000万次，此次更新旨在优化大语言模型的计算效率与本地部署性能。MTP起草器可与Gemma4 31B等主模型协同工作，通过轻量化模型预测并行验证多个Token，从而减少显存带宽占用并加快生成速度。测试显示，在Apple Silicon芯片环境下，Gemma4 26B模型在batch size为4至8时性能提升约2.2倍。该技术显著改善消费级设备与边缘硬件的AI运行体验，降低本地部署能耗与延迟，为即时对话、自动编程及智能体等应用场景带来更高的实时性与可扩展性。

谷歌发布Gemma4多Token预测起草器 推理速度最高提升3倍

发表回复

谷歌发布Gemma4多Token预测起草器推理速度最高提升3倍