谷歌研究院于2026年3月26日推出新型AI内存压缩技术TurboQuant,旨在解决大语言模型(LLM)推理中的KV缓存内存瓶颈问题。该技术采用向量量化方案,由PolarQuant量化方法与QJL优化手段组成,可在不损失精度的情况下将缓存占用缩减至原来的六分之一,并在H100 GPU加速器上实现多达8倍的性能提升。测试显示,TurboQuant无需额外训练即可将键值缓存压缩至3比特,在Gemma、Mistral等主流开源模型上保持零精度损失。这一突破将显著提升模型运行效率与硬件利用率,预计将在ICLR 2026大会上正式发布,为AI开发与大规模模型部署带来更低的成本与更高的性能。