DFlash:用块扩散模型打破推测解码的加速天花板

一、DFlash 是什么?

DFlash 是一种推测解码(Speculative Decoding)加速框架,由 Z Lab 在 2026 年 2 月提出。它的核心创新是:用块扩散模型(Block Diffusion Model)替代传统的自回归草稿模型

一句话概括

DFlash = 目标大模型(自回归,负责验证)+ 块扩散草稿模型(并行,负责快速生成草稿)


二、为什么要做 DFlash?

现有方法的问题

推测解码的核心思路是:用小模型快速生成候选 token,大模型并行验证。但现有方法(包括 SOTA 的 EAGLE-3)都有一个共同瓶颈:草稿模型本身也是自回归的

EAGLE-3 生成 8 个草稿 token:
  Step 1: 输入 → 生成 "help"
  Step 2: 输入 + "help" → 生成 "you"  
  Step 3: 输入 + "help" + "you" → 生成 "?"
  ...
  Step 8: 生成第 8 个 token
  
  → 需要 8 次前向传播
  → 草稿延迟随 token 数线性增长

这导致两个后果:

  1. 草稿模型必须很浅(通常 1 层),否则延迟太高

  2. 加速比天花板低(通常 2-3x),因为草稿生成本身就成了瓶颈

DFlash 的解决思路

扩散模型(Diffusion Model)擅长并行生成。DFlash 的想法是:如果草稿模型能一次性并行生成整个 token 块,就能打破串行瓶颈。


三、DFlash 的核心架构

DFlash 系统由两大部分组成:

3.1 目标模型(Target LLM)

  • 原始大模型(如 Qwen3-8B、LLaMA-3.1-8B)

  • 推理时完全冻结,只负责验证

  • 同时提供多层隐藏状态给草稿模型作为上下文

3.2 块扩散草稿模型(Block Diffusion Draft)

  • 5 层 Transformer(比 EAGLE-3 更深)

  • 单次前向传播并行生成 16 个 token

  • 使用双向注意力(块内 token 互相可见)

  • 通过KV 注入机制接收目标模型的特征


四、关键技术详解

4.1 块扩散生成(核心创新)

自回归 vs 块扩散
维度 自回归(EAGLE-3) 块扩散(DFlash)
生成方式 逐个 token 串行生成 整个块一次性并行生成
前向传播次数 K 次(K = 块大小) 1 次
注意力 因果注意力(只能看前面) 双向注意力(块内互相看)
延迟与块大小关系 线性增长 基本无关
块扩散具体怎
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值