JRS直播2026世界杯比赛直播 KV Cache终于不必无脑全留了!百度&复旦用「投资汇报率」再行分拨缓存|ICML 2026

发布日期:2026-06-14 09:12    点击次数:193

JRS直播2026世界杯比赛直播 KV Cache终于不必无脑全留了!百度&复旦用「投资汇报率」再行分拨缓存|ICML 2026

百度百舸 团队 投稿

量子位 | 公众号 QbitAI

跟着AI Coding、Agent、Deep Research 等利用快速普及,模子单次处理的高下文长度正在从几万Token迈向几十万以致百万Token。

一个看似“隐形”的瓶颈正悄然制约着推理效率——

KV Cache(键值缓存)的内存占用随序列长度线性增长,不仅推高显存老本,更平直律例了批量推理的浑沌武艺。

对此,百度百舸团队集结复旦大学实在具身智能谈判院,在长高下文高效推理标的取得进犯进展。

关系效果《Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction》被机器学习顶会ICML 2026委派。

集结团队建议的LU-KV框架,在80% KV Cache压缩率下,相对性能蚀本仅0.52%(以Qwen2.5-32B在LongBench 的评测末端为例),在效率–精度衡量弧线上达到新的SOTA水平。

为什么现存步调会“看走眼”?

现时主流的KV Cache压缩有有筹商(如SnapKV、KeyDiff、AdaKV等)经常免除一个朴素假定:持重力分数高的Token更进犯,应该优先保留。

这种“看现时分数大小”的计谋在单头里面往往灵验,但当预算需要在几十层、几百个持重力头之间分拨时,问题就深切了。

本使命发现,这种「看现时分数大小」的分拨逻辑会忽略不同持重力头在遥远语义信息保留武艺上的互异,容易把缓存预算分拨给短期分数高、但遥远孝敬有限的Token,形成缓存预算与长程信息价值之间的错配。

针对这一问题,团队建议Long-horizon Utility KV(LU-KV)框架,将头级KV Cache预算分拨建模为面向长程边缘效力的全局组合优化问题。

LU-KV 的中枢念念路:用“投资汇报率”念念维重构缓存分拨

既然中枢瓶颈在于跨头预算分拨,LU-KV具体如何运作?

团队并未在单头打分器上作念修补,而是构建了一套从“表面标尺”到“全局优化”,再到“工程落地”的完好意思时期旅途,或者拆解为三步。

第一步:立下“真标尺”——界说Oracle Importance,量化默契偏差

要贬责预算错配,当先得知谈“什么才是信得过的进犯”。

LU-KV建议 Oracle Importance(确凿进犯性) 方针,将Token的进犯性界说为:

通过前瞻昔时K步解码窗口,平直盘算每个Token能产生的最大潜在孝敬。

这把进犯性评估从“单步瞬时持重力”升级为“长程前瞻效力”。

有了这把标尺,团队初次严格量化了现存启发式方针与确凿进犯性之间的 “最优性差距(Optimality Gap)”,云开体育2026世界杯中国官网入口诠释了盲目按瞬时辰数分拨预算势必导致遥远语义流失,也为后续的优化提供了明确的数学靶心。

第二步:解“全局题”——凸包草率+贪念计谋,将非凸穷苦更始为高效求解

有了测度偏差的标尺,预算分拨就不再是凭嗅觉“分蛋糕”,而是一个明确的全局组合优化问题:

如安在总预算固定的不休下,让总计持重力头的遥远信息保留总蚀本最小?该问题内容上是 NP-hard 的非凸翻脸优化。

为此,团队引入凸包草率(Convex-hull Relaxation)时期,将正本波动的蚀本弧线“熨平”为边缘收益严格递减的平滑函数。

这一数学变换使得复杂的组合优化问题具备了单调性,从而不错用基于边缘效力的全局贪默算法快速靠拢最优解。

如下图所示,在凸包草率下,正本NP-hard的非凸翻脸优化问题被更始为边缘收益严格递减的平滑模式。

此时,摄取全局贪默算法求解所得的末端,与动态计议(DP)求解原始组合优化问题的最优解高度吻合。

换言之,JRS直播2026世界杯赛事直播入口系统能自动算出:把下一个Token的缓存配额分给哪个头,才能最大化长程语义的保留收益。

第三步:过“落地关”——离线画像+在线查表,让表面最优齐全零支拨部署

有了测度偏差的标尺,预算分拨就不再是凭嗅觉“分蛋糕”,而是一个明

表面上求出了最优分拨计谋,但平直在线盘算Oracle Importance和及时优化,会带来不行禁受的推理蔓延。

如何让算法信得过走向坐褥?团队收拢了大模子的一个要津特点:不同持重力头的全局-局部压缩率比例,在种种任务中呈现出高度的结构踏实性(如下图所示)。

基于这一知悉,LU-KV联想了数据运转的离线Profiling 条约:

在部署前,用合成数据瞻望算每个头在不同压缩率下的最优预算比例,生成一张静态查找表。

在线推理时,系统只需笔据观念压缩率“查表”赢得各头预算,立时履行寂寥摒弃。

从表面优化到工程履行,LU-KV见效将复杂的在线盘算更始为O(1)的查表操作,齐全了信得过的零支拨部署。

值得一提的是,LU-KV并不替代底层的Token打分步调,而是动作通用的预算分拨层,可即插即用适配SnapKV、KeyDiff等多种压缩方针,具备精熟的工程兼容性与移动武艺。

实验数据:压缩 80%,性能简直不打折

团队在Mistral-7B-Instruct-v0.3和Qwen2.532B-Instruct中评价了该有有筹商,使用Snapkv和KeyDiff动作两种KVCache进犯性评价方针,与PyramidKV,AdaKV这类Budget SOTA分拨有有筹商进行了对比。对比末端如下:

LongBench上:在80%压缩率下,该步调灵验最小化了总体逐出蚀本,从而带来了显耀的精度晋升。

在Mistral-7B-v0.3模子上淹没KeyDiff步调,该步调将平均准确率从40.54 (AdaKV) 提高到46.21,复原了压缩模子与Full-KV上界之间84%的性能差距。

进犯的是,这些晋升在多个领域(从节录到合成任务)中齐很适应,标明学习到的压缩散布见效捕捉了每个领域的狭窄永逝。

RULER上:在顶点检索任务中,在Mistral-7B-v0.3模子上使用SnapKV方针,传统计谋发达彰着欠安:均匀压缩的平均准确率降至29.53%,AdaKV也仅能小幅晋升至37.48%。

比拟之下,在一样的80% 压缩率下,该步调齐全了69.98%的平均准确率。值得持重的是,在具有挑战性的multi-key-3任务上,该步调将性能从1.00%(均匀压缩)晋升至67.40%,炫耀出在保留稀薄但要津信息方面的弘大鲁棒性。

更多细节,请见ICML 2026论文或打听GitHub神情主页。

论文衔接:https://icml.cc/virtual/2026/poster/65241

神情主页:https://github.com/baidu-baige/LU-KV

一键三连「点赞」「转发」「贯注心」

接待在议论区留住你的想法!

— 完 —

咱们正在招聘又名眼疾手快、柔顺AI的学术裁剪实习生 🎓

感敬爱的小伙伴接待柔顺 👉 了解确定

🌟 点亮星标 🌟

2026美加墨世界杯中国官网入口

科技前沿进展逐日见JRS直播2026世界杯比赛直播



 



    Copyright © 1998-2026 JRS直播2026世界杯赛事直播入口™版权所有

    备案号 备案号: 

    技术支持:® RSS地图 HTML地图