谷歌于当地时间5月5日推出Gemma4系列模型的多Token预测(MTP)起草器,通过引入推测解码架构,在保持输出质量和逻辑一致性的前提下,将模型推理速度最高提升约3倍。Gemma4自发布以来下载量已超6000万次,此次更新旨在优化大语言模型的计算效率与本地部署性能。MTP起草器可与Gemma4 31B等主模型协同工作,通过轻量化模型预测并行验证多个Token,从而减少显存带宽占用并加快生成速度。测试显示,在Apple Silicon芯片环境下,Gemma4 26B模型在batch size为4至8时性能提升约2.2倍。该技术显著改善消费级设备与边缘硬件的AI运行体验,降低本地部署能耗与延迟,为即时对话、自动编程及智能体等应用场景带来更高的实时性与可扩展性。