Baseten 揭示仍在 KV Cache 压缩方法,实现 200 倍压缩率

根据 Beating,Baseten 研究团队发布了 Still,这是一种 KV cache 压缩方法,能够在单次前向传递中实现最高 200 倍压缩,同时无需在线优化或梯度更新。Still 集成了轻量级 Perceiver 压缩器——其规模约为基础模型参数的 1%——并将其应用到每个 Transformer 层中,通过对完整 KV cache 进行交叉注意力来直接生成压缩后的 cache。在 RULER 基准上,Still 在 8k 到 64k 的上下文窗口、8 倍到 200 倍的压缩率下对 Qwen 和 Gemma 模型进行了测试,既保持了高精度,又在表现上优于 SnapKV、H2O 和 KV-Distill 等可比方法。
免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论