谷歌发布开源多模态模型Gemma 4 12B：无编码器架构支持16GB设备本地运行

6月3日，谷歌发布统一多模态开源模型Gemma 4 12B。该模型采用“无编码器”架构，取消传统视觉与音频编码器，通过轻量嵌入层将图像和音频直接映射到文本Token空间，仅需单次矩阵运算即可完成处理，大幅降低计算复杂度。凭借架构简化，120亿参数模型可在仅16GB显存或统一内存的消费级设备上本地运行，实现离线视觉与音频任务处理。Gemma 4 12B还引入多Token预测以提升推理速度，其多步推理与Agent能力接近谷歌26B MoE模型。目前模型已按Apache 2.0协议开源，并支持Ollama、LM Studio、MLX、SGLang、vLLM等推理框架，同时提供谷歌云及端侧部署方案。

谷歌发布开源多模态模型Gemma 4 12B：无编码器架构支持16GB设备本地运行

发表回复