最新搜看股票
报价
| 返回 放大 + 缩小 - | |
|
谷歌研究发表压缩演算法TurboQuant 节省AI模型对记忆体消耗
推荐 1 利好 2 利淡 1 AASTOCKS新闻
|
|
|
|
|
外媒报道,谷歌研究(Google Research)周二(24日)发表无需预先训练的压缩演算法TurboQuant,能在不影响模型精准度下,将大语言模型(LLM)的KV快取量压缩至3位元。在英伟达(NVDA.US)H100图像处理器(GPU)的基准测试中,相较於未量化的32位元键值,4位元的TurboQuant在计算注意力逻辑值(attention logits)时的效能提升最高可达8倍,同时将KV快取记忆体减少至少6倍。 KV快取用於储存先前计算出的注意力资料,使大语言模型无需在每个标记生成步骤中重新计算。随着上下文视窗不断扩大,这些快取正逐渐成为主要记忆体樽颈。虽然传统向量量化方法能缩小快取规模,但由於必须将量化常数与压缩资料一同储存,每个值会产生几位元小量记忆体开销。在更大上下文视窗下,这些开销会随之累积。TurboQuant算法则消除有关樽颈。 记忆体股Sandisk(SDNK.US)及美光(MU.US)隔晚(25日)分别跌3.5%及3.4%。(fc/j)AASTOCKS新闻 |
|
