【模型后训练与深度推理】9 推理加速：推测解码与级联推理

最新推荐文章于 2026-06-30 20:33:07 发布

原创最新推荐文章于 2026-06-30 20:33:07 发布 · 295 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

机器学习

推理加速：推测解码与级联推理

Draft-then-Verify 范式的接受率分析、期望延迟降低公式推导，以及级联推理中的早期退出策略

一、核心概念与知识图谱

推测解码（Speculative Decoding）通过"小模型草稿 + 大模型验证"的 Draft-then-Verify 范式，在不改变目标模型分布的前提下突破自回归解码的串行瓶颈。级联推理（Cascade Inference）进一步将单一草稿模型扩展为多层异构草稿系统，配合早期退出（Early Exit）策略，形成从浅层到深层的动态计算路由。

二、推测解码总体结构

推测解码的本质是用草稿模型的"猜测"换取目标模型的"并行验证"。草稿模型 $Md\mathcal{M}_d$ 快速自回归生成候选序列，目标模型 $Mt\mathcal{M}_t$ 在单次前向传播中并行评估所有候选 token，通过修正的拒绝采样保证输出分布与 $Mt\mathcal{M}_t$ 完全一致。

三、验证模块设计

验证阶段是推测解码保证无损的核心。目标模型对草稿序列执行一次前向传播，获取每个位置的条件概率 $p(xi∣x<i)p(x_i \mid x_{<i})$ ，并与草稿概率 $q(xi∣x<i)q(x_i \mid x_{<i})$ 进行比值检验，决定是否接受或拒绝并重新采样。

四、模块协同与数据流闭环

推测解码的迭代过程形成闭环数据流：前缀序列进入草稿模型生成候选，候选与前缀拼接后送入目标模型并行验证，被接受的 token 扩展前缀，拒绝位置则由目标模型修正采样后作为新的迭代起点。KV 缓存在验证阶段被充分利用，避免重复计算。

五、接口对接与信号流向

推测解码系统对外暴露的接口包括提示文本输入、草稿长度超参、以及内部的概率张量与接受掩码。草稿模型输出概率分布 $q$ ，目标模型输出 $p$ ，验证层产出布尔掩码表示接受位，最终被接受的 token 序列作为有效输出返回给应用层。

六、三层架构总览

从系统视角看，推测解码部署于物理层的 GPU 集群或边缘-云混合节点；信号层承载草稿流、验证流与控制流三类数据；应用层面向对话生成、代码补全等场景，保证输出分布与原始大模型完全一致的前提下实现低延迟响应。

七、接受率分析与期望延迟降低公式推导

7.1 单 token 接受概率

设目标模型分布为 $p(xi∣x<i)p(x_i \mid x_{<i})$ ，草稿模型分布为 $q(xi∣x<i)q(x_i \mid x_{<i})$ 。为保证最终输出严格服从 $p$ ，Leviathan 等人与 Chen 等人独立提出了基于比值检验的接受规则。对草稿 token $x_i$ ，定义接受概率为

$αi=min⁡(1,p(xi∣x<i)q(xi∣x<i)).\alpha_i = \min\left(1, \frac{p(x_i \mid x_{<i})}{q(x_i \mid x_{<i})}\right).$

该规则等价于对 $p$ 和 $q$ 进行拒绝采样：若 $\ge q$ ，则必然接受；若 $p < q$ ，则以 $p / q$ 的概率接受。被拒绝时，从修正分布 $norm(max⁡(0,p−q))\text{norm}\big(\max(0, p - q)\big)$ 中重新采样，可严格证明输出序列服从 $p$ 。citeweb_search:2#0web_search:2#9

7.2 期望接受长度

假设各位置接受率独立且恒为 $α\alpha$ （即 $αi=α\alpha_i = \alpha$ ），草稿长度为 $γ\gamma$ 。令 $L$ 为单轮验证后被接受并实际产出的 token 数（含最终修正或接受的最后一个 token）。 $L$ 服从截断几何分布：前 $k$ 个 token 全部被接受的概率为 $αk\alpha^k$ 。于是期望产出长度为

$E[L]=∑k=0γαk=1−αγ+11−α.\mathbb{E}[L] = \sum_{k=0}^{\gamma} \alpha^k = \frac{1 - \alpha^{\gamma+1}}{1 - \alpha}.$

当 $α→1\alpha \to 1$ 时， $E[L]→γ+1\mathbb{E}[L] \to \gamma+1$ ，接近草稿长度上限；当 $α→0\alpha \to 0$ 时， $E[L]→1\mathbb{E}[L] \to 1$ ，退化为标准自回归。citeweb_search:2#0web_search:2#4

7.3 期望延迟降低与加速比

设目标模型单次前向耗时为 $c_t$ ，草稿模型单次前向耗时为 $c_d$ ，定义相对成本 $c = c_d / c_t$ 。标准自回归生成 $E[L]\mathbb{E}[L]$ 个 token 的总耗时为 $E[L]⋅ct\mathbb{E}[L] \cdot c_t$ 。

推测解码每轮包含两个阶段：草稿模型自回归生成 $γ\gamma$ 个 token，耗时 $γ⋅cd\gamma \cdot c_d$ ；目标模型并行验证，耗时 $c_t$ 。因此每轮总耗时为 $γcd+ct\gamma c_d + c_t$ ，而期望产出 $E[L]\mathbb{E}[L]$ 个 token。等效单 token 延迟为

$Tˉspec=γcd+ctE[L]=(1−α)(γc+1)⋅ct1−αγ+1.\bar{T}_{\text{spec}} = \frac{\gamma c_d + c_t}{\mathbb{E}[L]} = \frac{(1 - \alpha)(\gamma c + 1) \cdot c_t}{1 - \alpha^{\gamma+1}}.$

相对于标准自回归的单 token 延迟 $c_t$ ，期望加速比（Speedup）为

$\frac{c_t}{\bar{T}_{\text{spec}}} = \frac{\mathbb{E}[L]}{1 + \gamma c} = \frac{1 - \alpha^{\gamma+1}}{(1 - \alpha)(1 + \gamma c)}.$

该公式揭示了推测解码加速的三个核心杠杆：

接受率 $α\alpha$ ：由草稿模型与目标模型的分布匹配度决定；
草稿长度 $γ\gamma$ ：需在更高并行度与验证失败惩罚之间权衡；
成本比 $c$ ：草稿模型越轻量，分母越小，但过轻的模型会导致 $α\alpha$ 下降。citeweb_search:2#0web_search:2#5

7.4 最优草稿长度

对固定 $α\alpha$ 和 $c$ ，可将 $S$ 视为 $γ\gamma$ 的函数。对 $γ\gamma$ 求导并令导数为零，可得近似最优解满足

$γ∗≈1c⋅α1−α−11−α.\gamma^{*} \approx \frac{1}{\sqrt{c}} \cdot \frac{\alpha}{1 - \alpha} - \frac{1}{1 - \alpha}.$

直观上，当草稿模型极快（ $\to 0$ ）且匹配度高（ $α→1\alpha \to 1$ ）时，可取较大 $γ\gamma$ ；反之应保守选择短草稿，避免验证浪费。

八、级联推理架构

8.1 垂直级联：多级草稿链

级联推理将单一草稿模型扩展为能力递增的草稿链。Chen 等人提出的 Cascade Speculative Drafting 引入两级草稿：轻量模型 $Md1\mathcal{M}_{d_1}$ 先生成粗略候选，再由稍强的 $Md2\mathcal{M}_{d_2}$ 对每个候选进行细化，最终由目标模型 $Mt\mathcal{M}_t$ 验证。citeweb_search:2#15

设 $Md1\mathcal{M}_{d_1}$ 与 $Md2\mathcal{M}_{d_2}$ 的单步成本分别为 $c_{d_1}$ 、 $c_{d_2}$ ， $Md1\mathcal{M}_{d_1}$ 每步产出 $k$ 个 token 供 $Md2\mathcal{M}_{d_2}$ 细化，目标模型每轮验证 $n$ 步。则期望墙钟改善因子（EWIF）为

$EWIF=1−αϕn(α)(1−α)(1+ncd1+nkcd2),\text{EWIF} = \frac{1 - \alpha \phi^n(\alpha)}{(1 - \alpha)(1 + n c_{d_1} + n k c_{d_2})},$

其中 $ϕn(α)\phi^n(\alpha)$ 表征经过两级草稿细化后的累积接受率函数。分母中的 $n c_{d_1} + n k c_{d_2}$ 体现了级联带来的额外草稿开销，分子则反映细化对接受率的提升。当 $Md2\mathcal{M}_{d_2}$ 的细化能显著提高 $α\alpha$ 时，级联的净收益为正。citeweb_search:2#15

8.2 动态树级联（DyTC）

在级联基础上，CAS-Spec 等方法进一步引入动态树级联（Dynamic Tree Cascade）。系统维护一组可动态切换的推理加速策略（DSIA），如层稀疏、早期退出、激活量化等，每种策略视为一个虚拟草稿模型 $Mdi\mathcal{M}_{d_i}$ 。运行时根据局部接受率 $α^di\hat{\alpha}_{d_i}$ 与成本 $c^di\hat{c}_{d_i}$ 的实时估计，求解优化问题：

$ks∈[1,kmax⁡].\mathcal{M}_{d_s}, k_s = \arg\max_{\mathcal{M}_{d_s}, k_s} \mathcal{T}_s(\mathcal{M}_{d_s}, k_s), \quad \text{s.t.} \ k_s \in [1, k_{\max}].$

决策依据为累积接受率与成本比值的阈值判断：若某路径的 $α^dn/c^dn∏j=1lsα^j<tmin⁡\hat{\alpha}_{d_n} / \hat{c}_{d_n} \prod_{j=1}^{l_s} \hat{\alpha}_j < t_{\min}$ ，则提前终止该分支的草稿生成，避免无效计算。citeweb_search:2#1

九、早期退出策略

9.1 浅层草稿生成

早期退出策略的核心思想是：并非每个 token 都需要目标模型的全部深度。对于"简单"token，中间层的隐藏状态已包含足够信息以高置信度预测下一个 token。Kangaroo 等方法在目标模型前 $N$ 层后插入一个轻量退出层 $Transformere\text{Transformer}_e$ ，其输出经 RMSNorm 与投影头得到草稿分布：

$q(yt)=softmax(WT⋅Transformere(HtN)).q(y_t) = \text{softmax}\big(W^T \cdot \text{Transformer}_e(H_t^N)\big).$

该退出层通过自蒸馏训练，冻结原模型前 $N$ 层参数，仅微调退出层与投影头，使浅层输出逼近完整模型的分布。citeweb_search:2#13

9.2 置信度阈值与 Thompson 采样控制

为避免过早退出导致草稿质量下降，Liu 等人提出基于 Thompson 采样的动态控制机制。系统不采用固定退出层，而是根据中间层输出的置信度（如最大概率与熵）决定是否提前退出。具体地，对每个 token 维护一个 Beta 分布的后验 $Beta(αacc,βrej)\text{Beta}(\alpha_{\text{acc}}, \beta_{\text{rej}})$ ，表征该层退出预测的准确率。Thompson 采样从该后验中抽取 $θ~\tilde{\theta}$ ，若 $θ~\tilde{\theta}$ 高于阈值则执行早期退出，否则继续深层计算。该机制在探索（尝试浅层退出）与利用（信任深层精度）之间取得平衡，使整体接受率随在线运行自适应提升。citeweb_search:2#1web_search:2#13

9.3 双早期退出与自推测解码

Kangaroo 进一步提出"双早期退出"架构：第一退出层位于极浅层（如前 1/4 层），用于生成极快但粗糙的草稿；第二退出层位于中层，用于对第一退出层的草稿进行快速筛选。被第二退出层高置信度接受的 token 直接进入目标模型验证，低置信度 token 则回退到完整深度重新计算。这种级联式早期退出将自推测解码的草稿成本压至极低，同时通过两级筛选维持较高接受率。citeweb_search:2#1

十、总结

推测解码通过 Draft-then-Verify 范式，以接受率 $α\alpha$ 、草稿长度 $γ\gamma$ 与成本比 $c$ 为核心变量，将期望加速比刻画为

$\frac{1 - \alpha^{\gamma+1}}{(1 - \alpha)(1 + \gamma c)}.$

级联推理在此基础上引入多级草稿链与动态树级联，通过 $EWIF\text{EWIF}$ 公式量化多级草稿的净收益。早期退出策略则利用目标模型自身的浅层表示生成草稿，结合 Thompson 采样控制与双退出筛选，实现无需外部草稿模型的自推测加速。三者的共同目标均是在严格保持目标模型分布不变的前提下，将推理延迟降至理论下限。citeweb_search:1#2web_search:1#3web_search:2#1

参考文献

Leviathan, Y., Kalman, M., & Matias, Y. (2022). Fast inference from transformers via speculative decoding. ICML 2023. citeweb_search:1#3
Chen, C., Borgeaud, S., Irving, G., Lespiau, J. B., Sifre, L., & Jumper, J. (2023). Accelerating large language model decoding with speculative sampling. arXiv:2302.01318. citeweb_search:1#2
Chen, Z., Yang, X., Lin, J., Sun, C., Chang, K. C. C., & Huang, J. (2024). Cascade speculative drafting for even faster LLM inference. NeurIPS 2024. citeweb_search:2#15
Liu, F., Tang, Y., Liu, Z., Ni, Y., Tang, D., Han, K., & Wang, Y. (2024). Kangaroo: Lossless self-speculative decoding for accelerating LLMs via double early exiting. NeurIPS 2024. citeweb_search:2#1
Liu, J., Wang, Q., Wang, J., & Cai, X. (2024). Speculative decoding via early-exiting for faster LLM inference with Thompson sampling control mechanism. ACL Findings 2024. citeweb_search:2#1