谷歌发布 TurboQuant：LLM 推理内存压缩 6 倍、速度提升 8 倍

3月26日，谷歌研究团队推出全新向量量化压缩算法 TurboQuant，用于优化大语言模型（LLM）推理中的键值缓存（KV Cache）效率。该算法结合 PolarQuant 极坐标压缩与 QJL 1-bit 量化两阶段框架，使 KV Cache 内存需求减少至少 6 倍，同时在 Nvidia H100 GPU 上注意力计算速度最高提升 8 倍，并实现零精度损失。测试显示，TurboQuant 在 Gemma、Mistral 等开源模型及 LongBench、Needle In A Haystack 等基准中均达到或超越现有方法性能。该方案无需训练，可直接集成现有模型，适用于长上下文处理、数据库检索及推荐系统。谷歌称，这项研究已在 ICLR 2026 会议提交论文，并计划开放代码，推动高效 AI 推理与部署规模化。

谷歌发布 TurboQuant：LLM 推理内存压缩 6 倍、速度提升 8 倍

发表回复