一、DFlash 是什么?
DFlash 是一种推测解码(Speculative Decoding)加速框架,由 Z Lab 在 2026 年 2 月提出。它的核心创新是:用块扩散模型(Block Diffusion Model)替代传统的自回归草稿模型。
一句话概括
DFlash = 目标大模型(自回归,负责验证)+ 块扩散草稿模型(并行,负责快速生成草稿)
二、为什么要做 DFlash?
现有方法的问题
推测解码的核心思路是:用小模型快速生成候选 token,大模型并行验证。但现有方法(包括 SOTA 的 EAGLE-3)都有一个共同瓶颈:草稿模型本身也是自回归的。
EAGLE-3 生成 8 个草稿 token:
Step 1: 输入 → 生成 "help"
Step 2: 输入 + "help" → 生成 "you"
Step 3: 输入 + "help" + "you" → 生成 "?"
...
Step 8: 生成第 8 个 token
→ 需要 8 次前向传播
→ 草稿延迟随 token 数线性增长
这导致两个后果:
-
草稿模型必须很浅(通常 1 层),否则延迟太高
-
加速比天花板低(通常 2-3x),因为草稿生成本身就成了瓶颈
DFlash 的解决思路
扩散模型(Diffusion Model)擅长并行生成。DFlash 的想法是:如果草稿模型能一次性并行生成整个 token 块,就能打破串行瓶颈。
三、DFlash 的核心架构
DFlash 系统由两大部分组成:
3.1 目标模型(Target LLM)
-
原始大模型(如 Qwen3-8B、LLaMA-3.1-8B)
-
推理时完全冻结,只负责验证
-
同时提供多层隐藏状态给草稿模型作为上下文
3.2 块扩散草稿模型(Block Diffusion Draft)
-
5 层 Transformer(比 EAGLE-3 更深)
-
单次前向传播并行生成 16 个 token
-
使用双向注意力(块内 token 互相可见)
-
通过KV 注入机制接收目标模型的特征
四、关键技术详解
4.1 块扩散生成(核心创新)
自回归 vs 块扩散
| 维度 | 自回归(EAGLE-3) | 块扩散(DFlash) |
|---|---|---|
| 生成方式 | 逐个 token 串行生成 | 整个块一次性并行生成 |
| 前向传播次数 | K 次(K = 块大小) | 1 次 |
| 注意力 | 因果注意力(只能看前面) | 双向注意力(块内互相看) |
| 延迟与块大小关系 | 线性增长 | 基本无关 |



3万+

被折叠的 条评论
为什么被折叠?



