谷歌发布 TurboQuant:LLM 推理内存压缩 6 倍、速度提升 8 倍

3月26日,谷歌研究团队推出全新向量量化压缩算法 TurboQuant,用于优化大语言模型(LLM)推理中的键值缓存(KV Cache)效率。该算法结合 PolarQuant 极坐标压缩与 QJL 1-bit 量化两阶段框架,使 KV Cache 内存需求减少至少 6 倍,同时在 Nvidia H100 GPU 上注意力计算速度最高提升 8 倍,并实现零精度损失。测试显示,TurboQuant 在 Gemma、Mistral 等开源模型及 LongBench、Needle In A Haystack 等基准中均达到或超越现有方法性能。该方案无需训练,可直接集成现有模型,适用于长上下文处理、数据库检索及推荐系统。谷歌称,这项研究已在 ICLR 2026 会议提交论文,并计划开放代码,推动高效 AI 推理与部署规模化。

上一篇:

下一篇:

发表回复

登录后才能评论