DFlash：用块扩散模型打破推测解码的加速天花板

原创

已于 2026-05-22 10:01:51 修改 · 509 阅读

标签

#人工智能

于 2026-05-14 19:54:22 首次发布

一、DFlash 是什么？

DFlash 是一种推测解码（Speculative Decoding）加速框架，由 Z Lab 在 2026 年 2 月提出。它的核心创新是：用块扩散模型（Block Diffusion Model）替代传统的自回归草稿模型。

一句话概括

DFlash = 目标大模型（自回归，负责验证）+ 块扩散草稿模型（并行，负责快速生成草稿）

二、为什么要做 DFlash？

现有方法的问题

推测解码的核心思路是：用小模型快速生成候选 token，大模型并行验证。但现有方法（包括 SOTA 的 EAGLE-3）都有一个共同瓶颈：草稿模型本身也是自回归的。

EAGLE-3 生成 8 个草稿 token：
  Step 1: 输入 → 生成 "help"
  Step 2: 输入 + "help" → 生成 "you"  
  Step 3: 输入 + "help" + "you" → 生成 "?"
  ...
  Step 8: 生成第 8 个 token
  
  → 需要 8 次前向传播
  → 草稿延迟随 token 数线性增长

这导致两个后果：

草稿模型必须很浅（通常 1 层），否则延迟太高
加速比天花板低（通常 2-3x），因为草稿生成本身就成了瓶颈

DFlash 的解决思路

扩散模型（Diffusion Model）擅长并行生成。DFlash 的想法是：如果草稿模型能一次性并行生成整个 token 块，就能打破串行瓶颈。

三、DFlash 的核心架构

DFlash 系统由两大部分组成：

3.1 目标模型（Target LLM）

原始大模型（如 Qwen3-8B、LLaMA-3.1-8B）
推理时完全冻结，只负责验证
同时提供多层隐藏状态给草稿模型作为上下文

3.2 块扩散草稿模型（Block Diffusion Draft）

5 层 Transformer（比 EAGLE-3 更深）
单次前向传播并行生成 16 个 token
使用双向注意力（块内 token 互相可见）
通过KV 注入机制接收目标模型的特征

四、关键技术详解

4.1 块扩散生成（核心创新）

自回归 vs 块扩散

维度	自回归（EAGLE-3）	块扩散（DFlash）
生成方式	逐个 token 串行生成	整个块一次性并行生成
前向传播次数	K 次（K = 块大小）	1 次
注意力	因果注意力（只能看前面）	双向注意力（块内互相看）
延迟与块大小关系	线性增长	基本无关