谷歌研究发表压缩演算法TurboQuant 节省AI模型对记忆体消耗财经新闻 Financial News

桌面版

推荐

利好

利淡

AASTOCKS新闻

AASTOCKS旗下aacat开证券户口送腾讯

外媒报道，谷歌研究(Google Research)周二(24日)发表无需预先训练的压缩演算法TurboQuant，能在不影响模型精准度下，将大语言模型(LLM)的KV快取量压缩至3位元。在英伟达(NVDA.US)H100图像处理器(GPU)的基准测试中，相较於未量化的32位元键值，4位元的TurboQuant在计算注意力逻辑值(attention logits)时的效能提升最高可达8倍，同时将KV快取记忆体减少至少6倍。

KV快取用於储存先前计算出的注意力资料，使大语言模型无需在每个标记生成步骤中重新计算。随着上下文视窗不断扩大，这些快取正逐渐成为主要记忆体樽颈。虽然传统向量量化方法能缩小快取规模，但由於必须将量化常数与压缩资料一同储存，每个值会产生几位元小量记忆体开销。在更大上下文视窗下，这些开销会随之累积。TurboQuant算法则消除有关樽颈。

相关内容美国1月新屋销售按月为-17.6%，低於前值的-1.7%。
记忆体股Sandisk(SDNK.US)及美光(MU.US)隔晚(25日)分别跌3.5%及3.4%。(fc/j)

AASTOCKS新闻

已将连结复制到剪贴簿

备注

(1) 所有香港指数为即时指数

主页|实时行情|市场|新闻|指数
意见箱|免责声明

查看: 手机|桌面
语言: 繁|简|EN

回到页顶

联络我们
支援电邮: support@aastocks.com