论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELING

原创

已于 2025-05-30 19:28:10 修改 · 2.7k 阅读

标签

于 2025-05-30 19:26:47 首次发布

Flow Matching 论文
扩散模型：根据中心极限定理，对原始图像不断加高斯噪声，最终将原始信号破坏为近似的标准正态分布。这其中每一步都构造为条件高斯分布，形成离散的马尔科夫链。再通过逐步去噪得到原始图像。
Flow matching 采取直接将已知分布（如白噪声）转换为真实数据分布来生成数据，并且 Flow 是基于 Normalizing Flow，故而是可微双射。生成过程中变化的概率密度构成一个集合，称为概率密度路径 $p_t$ ，T 为路径长度。初始数据 $x_0 \sim p_0(x_0)$ ，目标数据 $x_T \sim p_T(x_T)$ 。
从 $x_0$ 到 $x_T$ 的过程可以表示为： $x_T=\phi(x_0)=\phi_T\circ\cdots\circ\phi_{t+1}\circ\phi_t\circ\cdots\phi_1(x_0)$
且对中间任意时间步 $x_t$ 有：
$\begin{aligned} x_t=\phi_t(x_{t-1}) \\x_{t-1}=\phi_t^{-1}(x_t) \end{aligned}$
根据概率密度函数的变量变换关系可得：（行列式为时刻 t 对应的流 $\phi_t$ 的 Jacobian 行列式）
$\begin{aligned} p_t(x_t) & =p_{t-1}(x_{t-1})\mathrm{det}\left[\frac{\partial x_{t-1}}{\partial x_t}\right] \\ & =p_{t-1}(\phi_t^{-1}(x_t))\mathrm{det}\left[\frac{\partial\phi_t^{-1}}{\partial x_t}(x_t)\right] \qquad \qquad (1) \end{aligned}$
那么就可以从初始数据分布 $p_0$ 推导到目标数据分布 $p_T$ 。行列式的本质是空间缩放的度量，相当于每次变换时都对概率密度进行归一化，采用更简洁的前推方程为：
$p_t=[\phi_t]_{*}p_0$

向量场建模

这可以通过 Neural Ordinary Differential Equations(NODE) 对 Jacobian 行列式中的常微分方程（ODE）建模，求出 $\phi_t$ 。为了实现这一点，需要将离散的时间步 $t=\{t_i\}_{i=1}^T$ 映射到连续时间变量 $t\in[0,1]$ ，这样将 $p_t$ 定义为连续时间和数据点的笛卡尔积： $\mathbb{R}^d -> \mathbb{R}_{>0}$ 且

最低0.47元/天解锁文章