6月3日,谷歌发布统一多模态开源模型Gemma 4 12B。该模型采用“无编码器”架构,取消传统视觉与音频编码器,通过轻量嵌入层将图像和音频直接映射到文本Token空间,仅需单次矩阵运算即可完成处理,大幅降低计算复杂度。凭借架构简化,120亿参数模型可在仅16GB显存或统一内存的消费级设备上本地运行,实现离线视觉与音频任务处理。Gemma 4 12B还引入多Token预测以提升推理速度,其多步推理与Agent能力接近谷歌26B MoE模型。目前模型已按Apache 2.0协议开源,并支持Ollama、LM Studio、MLX、SGLang、vLLM等推理框架,同时提供谷歌云及端侧部署方案。