KEYFORMER: KV CACHE REDUCTION THROUGH KEY TOKENS SELECTION FOR EFFICIENT GENERATIVE INFERENCE

最新推荐文章于 2026-06-20 12:24:59 发布

原创最新推荐文章于 2026-06-20 12:24:59 发布 · 849 阅读

·

20

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#自然语言处理

Keyformer

Keyformer算法

Keyformer算法

缩小KV缓存大小以适应较短的序列 $S_{k}$ ，它是 $S_{n}$ 的子集。用注意力机制本身的稀疏性实现。

为每个token引入一个评分函数 $f_{\theta}$ ,用于从n个token中识别出k个关键token。

注意力评分决定了单个token与所有其他token之间连接的程度
$softmax(\frac{QK_{T}}{\sqrt d_{k}})$

问题：评分分布不均匀

在这里插入图片描述
是由softmax函数固有性质决定的。

解决方法一：阻尼因子

解决方法二：Gumbel Softmax

$f_{Gumbel}(y_{i})=e^{-(y_{i}-x_{i})-e^{-(y_{i}-x_{i})}}$
$y_{i}$ 指未归一化的logits值
$x_{i}$ 是从Gumbel分布中采样的随机值
含义是计算logits和Gumbel噪声调整后的概率分布。这种调整引入随机性，在logits的基础上动态生成概率分布，从而增强模型的探索能力
在这里插入图片描述
$\sum p_{i} log(p_{i})$
由于Gumbel噪声的随机性，会导致 $z_{Gumbel}$ 更加均匀（即分布更加平滑），从而熵更高。

Gumbel分布

在这里插入图片描述
标准的Gumbel分布的概率密度函数（PDF）的图像，定义为
$f_{x}=\frac{1}{\beta}e^{-\frac{x-\mu}{\beta}-e^{-\frac{x-\mu}{\beta}}}$
$\mu$ 是位置参数，默认为0，决定分布的中心
$\beta$ 是尺度参数，默认为1，决定分布的宽度

温度参数

在这里插入图片描述
温度参数
“温度”参数 (τ) 在调节概率分布的平滑度方面起着至关重要的作用。较高的 τ 值 (τ → ∞) 会产生均匀的概率，为所有标记分配相等的得分。相反，较低的 τ 值 (τ → 0) 会产生更尖锐的分布，根据其未归一化的 logits 来优先考虑特定标记。该参数控制着概率中随机性的程度。

随着更多标记被丢弃，我们需要更均匀或随机的概率分布
在这里插入图片描述

算法详细

在这里插入图片描述

原文

链接: KEYFORMER: KV CACHE REDUCTION THROUGH KEY TOKENS SELECTION FOR EFFICIENT GENERATIVE INFERENCE

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。