谷歌TurboQuant引发存储芯片市场巨变,AI内存需求骤降,推理速度提升8倍。
3月26日,据谷歌研究院昨日(3月25日)发布的博文显示,其推出了全新的极端压缩算法TurboQuant,该技术有望提升AI运行效率,并解决大模型中键值缓存(KVCache)的内存瓶颈问题。
向量是人工智能模型理解和处理信息的核心基础,但高维向量会占用大量内存,在键值缓存(KVCache)中造成显著的性能瓶颈。 在当前AI技术快速发展的背景下,如何优化向量处理效率成为关键挑战。高维向量虽然能更精确地表达信息,但也带来了存储和计算上的巨大压力,尤其在需要频繁访问的KVCache中,这种问题尤为突出。解决这一瓶颈不仅关乎模型的运行效率,也直接影响实际应用的可行性与扩展性。
注:键值缓存是大语言模型在生成文本过程中采用的一种高速缓存机制,通过保存先前的计算结果来减少重复运算,但容易引发内存限制问题。
传统的高维向量量化技术虽然能够实现数据压缩,但往往需要为细小的数据块计算和存储量化参数,从而带来额外的“内存开销”。这种额外负担在一定程度上削弱了压缩所带来的优势,使得AI大模型在处理长文本或大规模搜索任务时仍然面临性能限制。
谷歌研究院为解决这一难题,推出了全新的压缩算法 TurboQuant。与此同时,研究团队也公开了支撑该算法的两项核心技术:量化 Johnson-Lindenstrauss(QJL)和 PolarQuant(该技术将在 AISTATS 2026 上首次亮相)。 从技术发展的角度来看,TurboQuant 的推出标志着数据压缩领域又迈出了重要一步。尤其是在大数据和人工智能快速发展的背景下,高效的压缩技术对于提升数据传输效率、降低存储成本具有重要意义。QJL 和 PolarQuant 作为其底层支撑技术,展现了谷歌在算法创新上的持续投入。AISTATS 2026 作为国际权威的统计学与机器学习会议,将见证 PolarQuant 的首次公开,这无疑会引发学术界和工业界的广泛关注。
这三项技术的协同应用,为依赖数据压缩的AI与搜索业务提供了全新的解决方案,在不降低AI模型预测性能的前提下,有效减少了键值缓存的内存消耗。 我认为,这一技术突破不仅体现了当前人工智能领域在效率优化方面的持续进步,也反映出企业在提升系统性能与资源利用率之间的平衡能力。随着数据规模的不断增长,如何在保证效果的同时降低硬件成本,已成为行业关注的重点。此次技术的应用,或许将为相关领域的实际部署带来更广泛的可行性。
TurboQuant的运行机制主要包含两个关键步骤,其中第一步是通过PolarQuant方法实现高质量的主体压缩。这一方法突破了传统思路,不再依赖传统的笛卡尔坐标系,而是将数据向量转换为极坐标形式,从而提升了压缩效率和数据保留的完整性。这种创新方式在数据处理领域具有一定的前瞻性,值得进一步关注和研究。
这种转换将数据映射到边界已知的固定“圆形”网格上,免去了昂贵的数据归一化步骤,彻底消除了传统方法的内存开销。
随后,TurboQuant采用QJL算法来处理第一步中遗留的微小误差。QJL仅需1比特的残差压缩计算能力,就能如同数学纠错机制般消除偏差,确保模型生成精确的注意力分数。
研究团队对Gemma和Mistral等开源大模型进行了严格的基准测试。实验结果显示,TurboQuant无需任何预训练或微调,即可高效地将键值缓存压缩至3比特,在“大海捞针”等长上下文任务中实现零精度损失,同时将内存占用降低至原来的1/6。
此外,在H100 GPU加速器上,采用4比特TurboQuant技术的运行速度相比未量化的32比特基准模型提升了最高达8倍。
谷歌TurboQuant压缩技术引发市场震动,存储芯片行业遭遇“至暗时刻”,主要企业股价集体下挫。截至收盘,美光科技股价下跌4%,西部数据跌幅达4.4%,希捷科技下跌5.6%,闪迪更是重挫6.5%。