谷歌与英伟达发布开源模型DiffusionGemma：扩散式文本生成，单卡推理提速4倍

6月10日，谷歌联合英伟达发布实验性开源语言模型DiffusionGemma。该模型首次将扩散模型机制引入文本生成，通过从随机噪声迭代优化，可并行生成最多256个token，突破传统自回归逐字生成方式。模型总参数260亿，采用混合专家（MoE）架构，单步激活约38亿参数。经英伟达优化，在单GPU单用户模式下推理速度较传统模型提升约4倍，在H100上输出速度约1000 token/秒，在RTX5090上约700 token/秒。模型权重已按Apache 2.0协议在Hugging Face开源，并兼容vLLM、MLX等推理框架。

谷歌与英伟达发布开源模型DiffusionGemma：扩散式文本生成，单卡推理提速4倍

发表回复