返回    放大 +    缩小 -
谷歌研究发表压缩演算法TurboQuant 节省AI模型对记忆体消耗
推荐
1
利好
2
利淡
1
AASTOCKS新闻
外媒报道,谷歌研究(Google Research)周二(24日)发表无需预先训练的压缩演算法TurboQuant,能在不影响模型精准度下,将大语言模型(LLM)的KV快取量压缩至3位元。在英伟达(NVDA.US)H100图像处理器(GPU)的基准测试中,相较於未量化的32位元键值,4位元的TurboQuant在计算注意力逻辑值(attention logits)时的效能提升最高可达8倍,同时将KV快取记忆体减少至少6倍。

KV快取用於储存先前计算出的注意力资料,使大语言模型无需在每个标记生成步骤中重新计算。随着上下文视窗不断扩大,这些快取正逐渐成为主要记忆体樽颈。虽然传统向量量化方法能缩小快取规模,但由於必须将量化常数与压缩资料一同储存,每个值会产生几位元小量记忆体开销。在更大上下文视窗下,这些开销会随之累积。TurboQuant算法则消除有关樽颈。

相关内容美国1月新屋销售按月为-17.6%,低於前值的-1.7%。
记忆体股Sandisk(SDNK.US)及美光(MU.US)隔晚(25日)分别跌3.5%及3.4%。(fc/j)
AASTOCKS新闻