谷歌与英伟达发布开源模型DiffusionGemma:扩散式文本生成,单卡推理提速4倍

6月10日,谷歌联合英伟达发布实验性开源语言模型DiffusionGemma。该模型首次将扩散模型机制引入文本生成,通过从随机噪声迭代优化,可并行生成最多256个token,突破传统自回归逐字生成方式。模型总参数260亿,采用混合专家(MoE)架构,单步激活约38亿参数。经英伟达优化,在单GPU单用户模式下推理速度较传统模型提升约4倍,在H100上输出速度约1000 token/秒,在RTX5090上约700 token/秒。模型权重已按Apache 2.0协议在Hugging Face开源,并兼容vLLM、MLX等推理框架。

上一篇:

下一篇:

发表回复

登录后才能评论