谷歌发布 TurboQuant 技术：大模型内存占用降至六分之一，推理速度提升8倍

谷歌研究院于2026年3月26日推出新型AI内存压缩技术TurboQuant，旨在解决大语言模型（LLM）推理中的KV缓存内存瓶颈问题。该技术采用向量量化方案，由PolarQuant量化方法与QJL优化手段组成，可在不损失精度的情况下将缓存占用缩减至原来的六分之一，并在H100 GPU加速器上实现多达8倍的性能提升。测试显示，TurboQuant无需额外训练即可将键值缓存压缩至3比特，在Gemma、Mistral等主流开源模型上保持零精度损失。这一突破将显著提升模型运行效率与硬件利用率，预计将在ICLR 2026大会上正式发布，为AI开发与大规模模型部署带来更低的成本与更高的性能。

谷歌发布 TurboQuant 技术：大模型内存占用降至六分之一，推理速度提升8倍

发表回复