扩散模型深度解读：从理论到实践

最新推荐文章于 2026-06-18 14:16:48 发布

原创

最新推荐文章于 2026-06-18 14:16:48 发布 · 867 阅读

标签

#人工智能

扩散模型深度解读：从理论到实践

1. 基础理论与核心算法

扩散模型（Diffusion Models）作为近年来生成式人工智能领域最具突破性的技术之一，其理论基础源于非平衡热力学中的扩散过程。这类模型通过模拟一个逐步向数据中添加噪声并随后学习如何逆转这一过程来生成新的、与原始数据分布相似的数据。其核心思想可以类比于将一滴墨水滴入清水中，墨水会逐渐扩散开来，最终均匀分布在整个水体中。扩散模型的“前向过程”就如同这个扩散过程，将一张清晰的图片（初始状态）通过一系列步骤转化为纯粹的随机噪声（最终平衡状态）。而模型的“反向过程”则是一个逆向工程，它学习如何从纯粹的噪声开始，逐步去除噪声，最终“恢复”或“生成”出一张清晰的图片。这种独特的生成机制使得扩散模型在图像、视频、音频等多种数据模态的生成任务中取得了前所未有的高质量成果，其生成的样本在多样性和保真度上均超越了以往的生成模型，如生成对抗网络（GANs）和变分自编码器（VAEs）。

1.1 核心思想：从噪声到数据的逆向工程

扩散模型的核心思想是通过一个可逆的随机过程来学习复杂的数据分布。这个过程分为两个方向相反的阶段：前向扩散过程和反向去噪过程。前向过程是一个固定的、无需学习的马尔可夫链，它逐步将数据（如一张图片）转化为一个接近标准高斯分布的纯噪声。反向过程则是一个需要学习的马尔可夫链，它由一个深度神经网络参数化，旨在逆转前向过程，从一个随机采样的高斯噪声开始，逐步去除噪声，最终生成一个与训练数据分布一致的新样本。这种“先破坏，后重建”的范式，使得模型能够以一种稳定且可控的方式探索高维数据空间，避免了GANs中常见的训练不稳定性问题，如模式崩塌（mode collapse）。

1.1.1 前向过程：逐步添加噪声直至纯噪声

前向过程，也称为扩散过程，是一个逐步向原始数据 (x_0) 中添加高斯噪声的马尔可夫链，直到数据完全转化为一个近似于标准高斯分布的纯噪声 (x_T) 。这个过程由一系列条件概率分布 (q(x_t|x_{t-1})) 定义，其中 (t) 从 1 到 (T)。在每一步，模型都会根据一个预设的噪声调度（noise schedule）向数据中添加少量噪声。这个调度由一个方差序列 (\beta_1, \beta_2, \dots, \beta_T) 控制，其中每个 (\beta_t) 是一个介于 0 和 1 之间的较小正数。具体来说，从 (x_{t-1}) 到 (x_t) 的转换遵循以下高斯分布：

[ q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I) ]

这里的 (\sqrt{1-\beta_t}x_{t-1}) 是均值，(\beta_t I) 是协方差矩阵，(I) 是单位矩阵。这个公式的直观解释是，新的状态 (x_t) 是在前一个状态 (x_{t-1}) 的基础上，乘以一个略小于1的系数，并加上一个方差为 (\beta_t) 的高斯噪声。随着 (t) 的增加，(\beta_t) 通常会逐渐增大，这意味着每一步添加的噪声越来越多，数据中的原始信息被逐渐掩盖。当 (T) 足够大时，最终的 (x_T) 将几乎完全丢失原始数据 (x_0) 的信息，其分布接近于标准高斯分布 (\mathcal{N}(0, I)) 。这个过程是固定的，不涉及任何可学习的参数，其唯一目的是将复杂的数据分布“平滑”到一个简单的、已知的噪声分布，为后续的反向生成过程做准备。

1.1.2 反向过程：学习去噪以生成数据

反向过程是扩散模型的生成核心，它是一个与前向过程方向相反的马尔可夫链，旨在从纯噪声 (x_T) 开始，逐步恢复出原始数据 (x_0) 。这个过程由一个参数为 (\theta) 的深度神经网络来建模，学习一个条件概率分布 (p_\theta(x_{t-1}|x_t))。理想情况下，这个反向过程应该能够完美地逆转前向过程，即 (p_\theta(x_{t-1}|x_t) = q(x_{t-1}|x_t))。然而，直接计算 (q(x_{t-1}|x_t)) 是不可行的，因为它需要知道原始数据 (x_0)。因此，我们训练一个神经网络来近似这个反向条件概率分布。

反向过程的联合概率分布可以表示为：

[ p_\theta(x_{0:T}) = p(x_T) \prod_{t=1}^{T} p_\theta(x_{t-1}|x_t) ]

其中，(p(x_T)) 是一个标准高斯分布，作为生成过程的起点。而每个反向步骤 (p_\theta(x_{t-1}|x_t)) 也被建模为一个高斯分布，其均值和方差由神经网络根据当前的状态 (x_t) 和时间步 (t) 来预测。通过学习，神经网络能够捕捉到数据在不同噪声水平下的结构信息，从而在每一步中有效地去除噪声，最终生成一个与训练数据高度相似的新样本 (x_0)。这个从噪声中“无中生有”的过程，正是扩散模型强大生成能力的体现。

1.2 数学基础与推导

扩散模型的理论基础建立在概率论、随机过程和变分推断之上。通过严谨的数学推导，可以将复杂的生成问题转化为一个可优化的目标函数，从而指导模型的训练。

1.2.1 前向过程的数学定义与马尔可夫链

前向过程被定义为一个马尔可夫链，这意味着当前状态 (x_t) 只依赖于前一个状态 (x_{t-1})，而与更早的历史状态无关。这个性质极大地简化了过程的建模。整个前向过程的联合概率分布可以表示为：

[ q(x_{1:T}|x_0) = \prod_{t=1}^{T} q(x_t|x_{t-1}) ]

其中，每个转移步骤 (q(x_t|x_{t-1})) 都是一个高斯分布，如前文所述。这个马尔可夫链的性质保证了我们可以通过迭代的方式，从 (x_0) 一步步地生成出 (x_T)。更重要的是，由于每一步的转移核都是高斯分布，我们可以利用高斯分布的性质来简化计算。例如，两个独立高斯分布的和仍然是高斯分布，这使得我们可以推导出任意时刻 (t) 的样本 (x_t) 的分布，而无需进行繁琐的迭代计算。

1.2.2 任意时刻的样本分布推导

一个关键的数学性质是，我们可以直接计算出在任意时间步 (t) 的样本 (x_t) 的分布，而无需逐步迭代。这得益于高斯分布的线性组合性质。通过重参数化技巧，我们可以将 (x_t) 表示为原始数据 (x_0) 和一个标准高斯噪声 (\epsilon) 的线性组合：

[ x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon ]

其中，(\alpha_t = 1 - \beta_t)，而 (\bar{\alpha}t = \prod{s=1}^{t} \alpha_s) 是 (\alpha_t) 的累积乘积。这个公式被称为“扩散核”（Diffusion Kernel），它允许我们直接从 (x_0) 和 (t) 计算出 (x_t)。这个性质在训练过程中至关重要，因为它使得我们可以随机采样任意时间步 (t) 的噪声样本，从而高效地训练模型。例如，在训练时，我们可以随机选择一个时间步 (t)，然后根据上述公式生成对应的噪声图像 (x_t)，并将其与原始图像 (x_0) 和时间步 (t) 一起输入到神经网络中进行训练。

1.2.3 反向过程的变分推断与证据下界（ELBO）

为了训练反向过程，我们需要最大化模型生成真实数据的对数似然 (\log p_\theta(x_0))。然而，直接计算这个似然是困难的。因此，我们采用变分推断（Variational Inference）的方法，通过最大化一个可计算的下界——证据下界（Evidence Lower Bound, ELBO）来间接优化模型。ELBO 的推导基于 KL 散度，其目标是使模型分布 (p_\theta(x_{0:T})) 与真实的前向过程后验分布 (q(x_{1:T}|x_0)) 尽可能接近。

经过一系列复杂的数学推导，ELBO 可以被分解为几个部分，其中最关键的一项是：

[ L_{\text{simple}} = \mathbb{E}{x_0, \epsilon, t} \left[ | \epsilon - \epsilon\theta(x_t, t) |^2 \right] ]