【模型后训练与深度推理】9 推理加速:推测解码与级联推理

推理加速:推测解码与级联推理

Draft-then-Verify 范式的接受率分析、期望延迟降低公式推导,以及级联推理中的早期退出策略


一、核心概念与知识图谱

推测解码(Speculative Decoding)通过"小模型草稿 + 大模型验证"的 Draft-then-Verify 范式,在不改变目标模型分布的前提下突破自回归解码的串行瓶颈。级联推理(Cascade Inference)进一步将单一草稿模型扩展为多层异构草稿系统,配合早期退出(Early Exit)策略,形成从浅层到深层的动态计算路由。

推测解码

草稿生成

验证采样

级联推理

早期退出

小模型自回归

大模型并行

多级草稿链

浅层提前判

接受率分析

延迟降低


二、推测解码总体结构

推测解码的本质是用草稿模型的"猜测"换取目标模型的"并行验证"。草稿模型 Md\mathcal{M}_dMd 快速自回归生成候选序列,目标模型 Mt\mathcal{M}_tMt 在单次前向传播中并行评估所有候选 token,通过修正的拒绝采样保证输出分布与 Mt\mathcal{M}_tMt 完全一致。

输入提示

草稿模型

候选序列

目标模型

并行验证

接受判定

拒绝修正

输出序列


三、验证模块设计

验证阶段是推测解码保证无损的核心。目标模型对草稿序列执行一次前向传播,获取每个位置的条件概率 p(xi∣x<i)p(x_i \mid x_{<i})p(xix<i),并与草稿概率 q(xi∣x<i)q(x_i \mid x_{<i})q(xix<i) 进行比值检验,决定是否接受或拒绝并重新采样。

目标前向

概率提取

比值计算

拒绝采样

分布修正

令牌输出

接受通过


四、模块协同与数据流闭环

推测解码的迭代过程形成闭环数据流:前缀序列进入草稿模型生成候选,候选与前缀拼接后送入目标模型并行验证,被接受的 token 扩展前缀,拒绝位置则由目标模型修正采样后作为新的迭代起点。KV 缓存在验证阶段被充分利用,避免重复计算。

前缀序列

草稿自回归

KV缓存复用

目标验证

接受令牌

拒绝回退

循环迭代


五、接口对接与信号流向

推测解码系统对外暴露的接口包括提示文本输入、草稿长度超参、以及内部的概率张量与接受掩码。草稿模型输出概率分布 qqq,目标模型输出 ppp,验证层产出布尔掩码表示接受位,最终被接受的 token 序列作为有效输出返回给应用层。

提示文本

草稿长度

草稿概率

目标概率

接受掩码

有效令牌


六、三层架构总览

从系统视角看,推测解码部署于物理层的 GPU 集群或边缘-云混合节点;信号层承载草稿流、验证流与控制流三类数据;应用层面向对话生成、代码补全等场景,保证输出分布与原始大模型完全一致的前提下实现低延迟响应。

物理层

GPU集群

边缘节点

信号层

草稿流

验证流

控制流

应用层

对话生成

代码补全


七、接受率分析与期望延迟降低公式推导

7.1 单 token 接受概率

设目标模型分布为 p(xi∣x<i)p(x_i \mid x_{<i})p(xix<i),草稿模型分布为 q(xi∣x<i)q(x_i \mid x_{<i})q(xix<i)。为保证最终输出严格服从 ppp,Leviathan 等人与 Chen 等人独立提出了基于比值检验的接受规则。对草稿 token xix_ixi,定义接受概率为

αi=min⁡(1,p(xi∣x<i)q(xi∣x<i)).\alpha_i = \min\left(1, \frac{p(x_i \mid x_{<i})}{q(x_i \mid x_{<i})}\right).αi=min(1,q(xix<i)p(xix<i)).

该规则等价于对 pppqqq 进行拒绝采样:若 p≥qp \ge qpq,则必然接受;若 p<qp < qp<q,则以 p/qp/qp/q 的概率接受。被拒绝时,从修正分布 norm(max⁡(0,p−q))\text{norm}\big(\max(0, p - q)\big)norm(max(0,pq)) 中重新采样,可严格证明输出序列服从 ppp。citeweb_search:2#0web_search:2#9

7.2 期望接受长度

假设各位置接受率独立且恒为 α\alphaα(即 αi=α\alpha_i = \alphaαi=α),草稿长度为 γ\gammaγ。令 LLL 为单轮验证后被接受并实际产出的 token 数(含最终修正或接受的最后一个 token)。LLL 服从截断几何分布:前 kkk 个 token 全部被接受的概率为 αk\alpha^kαk。于是期望产出长度为

E[L]=∑k=0γαk=1−αγ+11−α.\mathbb{E}[L] = \sum_{k=0}^{\gamma} \alpha^k = \frac{1 - \alpha^{\gamma+1}}{1 - \alpha}.E[L]=k=0γαk=1α1αγ+1.

α→1\alpha \to 1α1 时,E[L]→γ+1\mathbb{E}[L] \to \gamma+1E[L]γ+1,接近草稿长度上限;当 α→0\alpha \to 0α0 时,E[L]→1\mathbb{E}[L] \to 1E[L]1,退化为标准自回归。citeweb_search:2#0web_search:2#4

7.3 期望延迟降低与加速比

设目标模型单次前向耗时为 ctc_tct,草稿模型单次前向耗时为 cdc_dcd,定义相对成本 c=cd/ctc = c_d / c_tc=cd/ct。标准自回归生成 E[L]\mathbb{E}[L]E[L] 个 token 的总耗时为 E[L]⋅ct\mathbb{E}[L] \cdot c_tE[L]ct

推测解码每轮包含两个阶段:草稿模型自回归生成 γ\gammaγ 个 token,耗时 γ⋅cd\gamma \cdot c_dγcd;目标模型并行验证,耗时 ctc_tct。因此每轮总耗时为 γcd+ct\gamma c_d + c_tγcd+ct,而期望产出 E[L]\mathbb{E}[L]E[L] 个 token。等效单 token 延迟为

Tˉspec=γcd+ctE[L]=(1−α)(γc+1)⋅ct1−αγ+1.\bar{T}_{\text{spec}} = \frac{\gamma c_d + c_t}{\mathbb{E}[L]} = \frac{(1 - \alpha)(\gamma c + 1) \cdot c_t}{1 - \alpha^{\gamma+1}}.Tˉspec=E[L]γcd+ct=1αγ+1(1α)(γc+1)ct.

相对于标准自回归的单 token 延迟 ctc_tct期望加速比(Speedup)为

S=ctTˉspec=E[L]1+γc=1−αγ+1(1−α)(1+γc).S = \frac{c_t}{\bar{T}_{\text{spec}}} = \frac{\mathbb{E}[L]}{1 + \gamma c} = \frac{1 - \alpha^{\gamma+1}}{(1 - \alpha)(1 + \gamma c)}.S=Tˉspecct=1+γcE[L]=(1α)(1+γc)1αγ+1.

该公式揭示了推测解码加速的三个核心杠杆:

  1. 接受率 α\alphaα:由草稿模型与目标模型的分布匹配度决定;
  2. 草稿长度 γ\gammaγ:需在更高并行度与验证失败惩罚之间权衡;
  3. 成本比 ccc:草稿模型越轻量,分母越小,但过轻的模型会导致 α\alphaα 下降。citeweb_search:2#0web_search:2#5

7.4 最优草稿长度

对固定 α\alphaαccc,可将 SSS 视为 γ\gammaγ 的函数。对 γ\gammaγ 求导并令导数为零,可得近似最优解满足

γ∗≈1c⋅α1−α−11−α.\gamma^{*} \approx \frac{1}{\sqrt{c}} \cdot \frac{\alpha}{1 - \alpha} - \frac{1}{1 - \alpha}.γc11αα1α1.

直观上,当草稿模型极快(c→0c \to 0c0)且匹配度高(α→1\alpha \to 1α1)时,可取较大 γ\gammaγ;反之应保守选择短草稿,避免验证浪费。


八、级联推理架构

8.1 垂直级联:多级草稿链

级联推理将单一草稿模型扩展为能力递增的草稿链。Chen 等人提出的 Cascade Speculative Drafting 引入两级草稿:轻量模型 Md1\mathcal{M}_{d_1}Md1 先生成粗略候选,再由稍强的 Md2\mathcal{M}_{d_2}Md2 对每个候选进行细化,最终由目标模型 Mt\mathcal{M}_tMt 验证。citeweb_search:2#15

Md1\mathcal{M}_{d_1}Md1Md2\mathcal{M}_{d_2}Md2 的单步成本分别为 cd1c_{d_1}cd1cd2c_{d_2}cd2Md1\mathcal{M}_{d_1}Md1 每步产出 kkk 个 token 供 Md2\mathcal{M}_{d_2}Md2 细化,目标模型每轮验证 nnn 步。则期望墙钟改善因子(EWIF)为

EWIF=1−αϕn(α)(1−α)(1+ncd1+nkcd2),\text{EWIF} = \frac{1 - \alpha \phi^n(\alpha)}{(1 - \alpha)(1 + n c_{d_1} + n k c_{d_2})},EWIF=(1α)(1+ncd1+nkcd2)1αϕn(α),

其中 ϕn(α)\phi^n(\alpha)ϕn(α) 表征经过两级草稿细化后的累积接受率函数。分母中的 ncd1+nkcd2n c_{d_1} + n k c_{d_2}ncd1+nkcd2 体现了级联带来的额外草稿开销,分子则反映细化对接受率的提升。当 Md2\mathcal{M}_{d_2}Md2 的细化能显著提高 α\alphaα 时,级联的净收益为正。citeweb_search:2#15

输入路由

一级草稿

二级草稿

目标验证

动态选择

结果聚合

8.2 动态树级联(DyTC)

在级联基础上,CAS-Spec 等方法进一步引入动态树级联(Dynamic Tree Cascade)。系统维护一组可动态切换的推理加速策略(DSIA),如层稀疏、早期退出、激活量化等,每种策略视为一个虚拟草稿模型 Mdi\mathcal{M}_{d_i}Mdi。运行时根据局部接受率 α^di\hat{\alpha}_{d_i}α^di 与成本 c^di\hat{c}_{d_i}c^di 的实时估计,求解优化问题:

Mds,ks=arg⁡max⁡Mds,ksTs(Mds,ks),s.t. ks∈[1,kmax⁡].\mathcal{M}_{d_s}, k_s = \arg\max_{\mathcal{M}_{d_s}, k_s} \mathcal{T}_s(\mathcal{M}_{d_s}, k_s), \quad \text{s.t.} \ k_s \in [1, k_{\max}].Mds,ks=argMds,ksmaxTs(Mds,ks),s.t. ks[1,kmax].

决策依据为累积接受率与成本比值的阈值判断:若某路径的 α^dn/c^dn∏j=1lsα^j<tmin⁡\hat{\alpha}_{d_n} / \hat{c}_{d_n} \prod_{j=1}^{l_s} \hat{\alpha}_j < t_{\min}α^dn/c^dnj=1lsα^j<tmin,则提前终止该分支的草稿生成,避免无效计算。citeweb_search:2#1


九、早期退出策略

9.1 浅层草稿生成

早期退出策略的核心思想是:并非每个 token 都需要目标模型的全部深度。对于"简单"token,中间层的隐藏状态已包含足够信息以高置信度预测下一个 token。Kangaroo 等方法在目标模型前 NNN 层后插入一个轻量退出层 Transformere\text{Transformer}_eTransformere,其输出经 RMSNorm 与投影头得到草稿分布:

q(yt)=softmax(WT⋅Transformere(HtN)).q(y_t) = \text{softmax}\big(W^T \cdot \text{Transformer}_e(H_t^N)\big).q(yt)=softmax(WTTransformere(HtN)).

该退出层通过自蒸馏训练,冻结原模型前 NNN 层参数,仅微调退出层与投影头,使浅层输出逼近完整模型的分布。citeweb_search:2#13

完整模型

浅层退出

置信度判

草稿生成

继续深算

验证反馈

9.2 置信度阈值与 Thompson 采样控制

为避免过早退出导致草稿质量下降,Liu 等人提出基于 Thompson 采样的动态控制机制。系统不采用固定退出层,而是根据中间层输出的置信度(如最大概率与熵)决定是否提前退出。具体地,对每个 token 维护一个 Beta 分布的后验 Beta(αacc,βrej)\text{Beta}(\alpha_{\text{acc}}, \beta_{\text{rej}})Beta(αacc,βrej),表征该层退出预测的准确率。Thompson 采样从该后验中抽取 θ~\tilde{\theta}θ~,若 θ~\tilde{\theta}θ~ 高于阈值则执行早期退出,否则继续深层计算。该机制在探索(尝试浅层退出)与利用(信任深层精度)之间取得平衡,使整体接受率随在线运行自适应提升。citeweb_search:2#1web_search:2#13

9.3 双早期退出与自推测解码

Kangaroo 进一步提出"双早期退出"架构:第一退出层位于极浅层(如前 1/4 层),用于生成极快但粗糙的草稿;第二退出层位于中层,用于对第一退出层的草稿进行快速筛选。被第二退出层高置信度接受的 token 直接进入目标模型验证,低置信度 token 则回退到完整深度重新计算。这种级联式早期退出将自推测解码的草稿成本压至极低,同时通过两级筛选维持较高接受率。citeweb_search:2#1


十、总结

推测解码通过 Draft-then-Verify 范式,以接受率 α\alphaα、草稿长度 γ\gammaγ 与成本比 ccc 为核心变量,将期望加速比刻画为

S=1−αγ+1(1−α)(1+γc).S = \frac{1 - \alpha^{\gamma+1}}{(1 - \alpha)(1 + \gamma c)}.S=(1α)(1+γc)1αγ+1.

级联推理在此基础上引入多级草稿链与动态树级联,通过 EWIF\text{EWIF}EWIF 公式量化多级草稿的净收益。早期退出策略则利用目标模型自身的浅层表示生成草稿,结合 Thompson 采样控制与双退出筛选,实现无需外部草稿模型的自推测加速。三者的共同目标均是在严格保持目标模型分布不变的前提下,将推理延迟降至理论下限。citeweb_search:1#2web_search:1#3web_search:2#1


参考文献

  • Leviathan, Y., Kalman, M., & Matias, Y. (2022). Fast inference from transformers via speculative decoding. ICML 2023. citeweb_search:1#3
  • Chen, C., Borgeaud, S., Irving, G., Lespiau, J. B., Sifre, L., & Jumper, J. (2023). Accelerating large language model decoding with speculative sampling. arXiv:2302.01318. citeweb_search:1#2
  • Chen, Z., Yang, X., Lin, J., Sun, C., Chang, K. C. C., & Huang, J. (2024). Cascade speculative drafting for even faster LLM inference. NeurIPS 2024. citeweb_search:2#15
  • Liu, F., Tang, Y., Liu, Z., Ni, Y., Tang, D., Han, K., & Wang, Y. (2024). Kangaroo: Lossless self-speculative decoding for accelerating LLMs via double early exiting. NeurIPS 2024. citeweb_search:2#1
  • Liu, J., Wang, Q., Wang, J., & Cai, X. (2024). Speculative decoding via early-exiting for faster LLM inference with Thompson sampling control mechanism. ACL Findings 2024. citeweb_search:2#1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

VectorShift

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值