【多模态基础模型与具身智能】12 生成式统一多模态：Any-to-Any 范式

最新推荐文章于 2026-06-29 21:19:11 发布

原创最新推荐文章于 2026-06-29 21:19:11 发布 · 270 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

机器学习

生成式统一多模态：Any-to-Any 范式

目标导向：掌握基于离散/连续 token 统一表示的任意模态生成原理；推导扩散模型与自回归模型在跨模态生成中的似然下界差异；建立 Any-to-Any 架构的系统认知。全文以中文成段讲述为主，仅在必要处给出关键公式。

1. 问题背景：从双模态到任意模态

1.1 多模态生成的范式演进

传统多模态模型采用晚期融合架构：各模态拥有独立的编码器，仅在高层语义空间进行交互。典型代表如 Flamingo、LLaVA 等，图像经 ViT 编码为连续特征向量，再与文本 token 拼接输入 LLM。这种架构的局限在于：模型天然偏向文本驱动的理解任务，难以实现真正的跨模态生成。

Any-to-Any 范式的核心突破在于统一表示空间——将文本、图像、音频、视频、动作乃至 3D 结构全部编码为同一空间中的 token 序列，由单一 Transformer 统一处理理解与生成。Gemini 与 Unified-IO 2 是该范式的里程碑：前者采用早期融合的 token-based 架构，使用离散图像 token 实现原生多模态推理；后者则通过统一的编码器-解码器 Transformer，将图像、文本、音频、动作全部 token 化后自回归建模，从 scratch 训练出 7B 参数的统一模型，在超过 35 个基准上取得强性能。

1.2 离散 vs 连续：统一表示的两条路线

统一表示空间存在两条技术路线：

维度	离散 Token 路线	连续特征路线
代表模型	AnyGPT、Chameleon、Unified-IO 2	Flamingo、LLaVA、SEED-X
编码方式	VQ-GAN / VQ-VAE 码本索引	ViT 连续特征向量
生成机制	自回归 Next-Token Prediction	扩散模型去噪
模态兼容性	天然统一，新增模态如加新语言	需设计模态对齐层
信息瓶颈	单 token 容量有限，需多 token 扩展	信息密度高，但模态间对齐困难

离散路线的核心优势在于与 LLM 生态完全兼容：无需改动模型架构，仅需数据层面的 tokenizer 与 detokenizer 即可接入新模态。AnyGPT 的实践证明，离散表示过滤了高频感知噪声、保留低频语义信息，使模型在零样本条件下即可实现任意模态组合的对话生成。然而，离散 token 的信息密度瓶颈也导致早期模型的多模态理解能力弱于连续特征 VLM。Kelix 等后续工作通过多 token 乘积量化（每个 patch 嵌入分解为多个并行离散 token）显著扩展了码本的有效容量，弥合了这一差距。

2. 总体架构：Tokenizer-LLM-Detokenizer 三层分解

Any-to-Any 系统可抽象为经典的三层流水线，每层职责清晰、可独立迭代。

Tokenizer 层负责将各模态的原始信号压缩为统一语义空间中的 token。文本使用字节对编码（BPE），图像通过预训练 VQ-GAN 转换为离散码本索引，音频经神经音频 codec 离散化，动作与稀疏结构（边界框、关键点）则通过特殊位置 token 编码。LLM 核心层在统一 token 空间执行序列建模，可采用自回归或离散扩散目标。Detokenizer 层将生成的 token 序列还原为感知级输出，图像常用扩散解码器提升保真度，音频通过声码器重建波形。

3. 知识图谱：Any-to-Any 概念层级

4. 统一表示：离散 Token 的编码与解码

4.1 文本与稀疏结构

文本输入输出采用 LLaMA 的 BPE 分词器，支持 Unicode 符号与空格保留。稀疏结构（边界框、关键点、相机位姿）通过 1000 个特殊位置 token 离散化：点用两个 token（x, y），边界框用四个 token（左上角与右下角），3D 立方体用 12 个 token 编码投影中心、虚拟深度与对数归一化尺寸。机器人动作则直接生成文本指令（如"move ahead"），状态信息通过特殊 token 注入。

4.2 图像的离散化与信息瓶颈

图像生成采用 VQ-GAN 将连续像素空间映射为离散码本。以 Unified-IO 2 为例，其使用 8×8 patch 的密集 VQ-GAN，将 256×256 图像编码为 1024 个 token，码本大小 16512。每个离散 token 承载对应图像 patch 的语义信息，过滤了高频纹理噪声。

然而，单离散 token 的信息容量远低于其替代的连续嵌入向量，形成信息瓶颈。Kelix 的解决方案是乘积量化：将每个 ViT patch 嵌入分解为 $M$ 个并行的离散子码本索引，有效码本空间从 $∣ C ∣$ 扩展为 $C|^M$ 。例如，当 $M = 4$ 、单码本大小为 1024 时，等效容量达 $10244≈10121024^4 \approx 10^{12}$ ，远超单 token 的 1024 种状态。这种多 token 表示使离散视觉模型的理解能力首次媲美连续特征 VLM。

4.3 音频与视频的 Token 化

音频通过神经 codec（如 SoundStream、EnCodec）压缩为离散 token 序列，兼顾语义内容与声学细节。视频则被视为带时序的图像序列，每帧独立经 VQ-GAN 编码后，在时间轴上拼接为长 token 序列。Unified-IO 2 的实践中，音频与视频的引入显著增加了训练不稳定性——多模态梯度范数随模态增加而失控攀升，需借助 QK 归一化与缩放余弦注意力机制加以抑制。

5. 自回归模型：Any-to-Any 的序列生成

5.1 统一编码器-解码器架构

Unified-IO 2 采用单一的 Transformer 编码器-解码器处理所有模态。输入端，文本 token 经嵌入层映射为向量，图像 patch 特征经线性层投影，音频段经 Perceiver Resampler 压缩为固定长度 token；所有嵌入拼接为统一序列送入编码器。输出端，解码器以自回归方式逐个预测下一个 token，预测目标可能是文本 token、图像 VQ-GAN 索引或音频 codec 索引。

5.2 多模态混合去噪目标

为在统一框架内同时支持理解与生成，Unified-IO 2 提出多模态混合去噪器（Multimodal Mixture of Denoisers）目标。该目标将不同模态的自监督信号统一为去噪形式：文本采用标准因果掩码，图像采用区块掩码预测，音频采用时频掩码恢复。所有任务共享同一套 next-token 预测接口，仅掩码模式与目标模态不同。这种设计使模型在 600TB 的多模态语料上获得稳定的自监督信号。

5.3 自回归的似然建模

对于离散 token 序列 $(x_1, x_2, \dots, x_T)$ ，自回归模型通过链式法则分解联合分布：

$\mid c) = \prod_{t=1}^{T} p_{\theta}(x_t \mid x_{<t}, c)$

其中 $c$ 为跨模态条件信息（如文本描述对应的图像生成任务）。训练目标为最大化对数似然：

$\mathcal{L}_{\text{AR}} = \mathbb{E}_{x \sim p_{\text{data}}} \left[ \sum_{t=1}^{T} \log p_{\theta}(x_t \mid x_{<t}, c) \right]$

该目标直接优化数据分布的联合似然，无需引入隐变量。其优势在于：解码过程确定性高，每步仅需一次前向传播与采样；与文本 LLM 的训练基础设施完全兼容，支持动态打包（Dynamic Packing）等高效训练技术。局限在于：对高维连续模态（如高分辨率图像），序列长度 $T$ 爆炸导致推理成本高昂；且单向因果掩码限制了全局上下文的同时利用。

6. 扩散模型：跨模态生成的概率视角

6.1 连续空间的去噪扩散

扩散模型在连续空间定义前向加噪过程 $q(xt∣xt−1)q(x_t \mid x_{t-1})$ 与反向去噪过程 $pθ(xt−1∣xt,c)p_{\theta}(x_{t-1} \mid x_t, c)$ 。训练目标为变分下界（ELBO），可简化为去噪均方误差：

$\mathcal{L}_{\text{diff}} = \mathbb{E}_{x_0, t, \epsilon} \left[ \| \epsilon - \epsilon_{\theta}(x_t, t, c) \|^2 \right]$

其中 $xt=αˉtx0+1−αˉtϵx_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon$ ， $ϵ∼N(0,I)\epsilon \sim \mathcal{N}(0, I)$ 。条件 $c$ 通常通过交叉注意力注入 U-Net 或 Transformer 骨干。

6.2 离散扩散与掩码建模

在 Any-to-Any 的离散 token 空间中，扩散过程需适配离散状态。Omni-Diffusion 与 Show-o 采用吸收态离散扩散：以特殊 [MASK] token 替代原始 token，模型学习从掩码序列中恢复干净序列。训练损失为掩码位置的交叉熵：

$\mathcal{L}_{\text{ddpm}} = \mathbb{E}_{x_0, t} \left[ -\log p_{\theta}(x_0 \mid x_t) \right]$

其中 $x_t$ 为时间步 $t$ 的掩码序列，掩码比例随 $t$ 增加。离散扩散的优势在于：双向注意力允许全局依赖建模，适合需要整体布局一致的图像生成；并行解码潜力大，可通过迭代去噪在数十步内完成生成。

7. 似然下界差异：AR 与 Diffusion 的理论对比

7.1 自回归的精确对数似然

自回归模型直接建模数据分布，其对数似然无需近似：

$\log p_{\theta}(x) = \sum_{t=1}^{T} \log p_{\theta}(x_t \mid x_{<t}, c)$

在离散 token 空间，每个条件分布 $pθ(xt∣x<t,c)p_{\theta}(x_t \mid x_{<t}, c)$ 经 Softmax 归一化后构成合法概率质量函数，模型可通过标准最大似然训练精确优化该目标。

7.2 扩散模型的变分下界

扩散模型的对数似然无法直接计算，需通过变分推断引入下界。设前向过程 $q(x1:T∣x0)q(x_{1:T} \mid x_0)$ 为固定马尔可夫链，反向过程 $pθ(x0:T∣c)p_{\theta}(x_{0:T} \mid c)$ 为可学习马尔可夫链。对数似然的 ELBO 为：

$\log p_{\theta}(x_0 \mid c) \geq \mathbb{E}_q \left[ \log p_{\theta}(x_0 \mid x_1, c) - \sum_{t=2}^{T} D_{\text{KL}}\big(q(x_{t-1} \mid x_t, x_0) \| p_{\theta}(x_{t-1} \mid x_t, c)\big) - D_{\text{KL}}\big(q(x_T \mid x_0) \| p(x_T \mid c)\big) \right]$

该下界包含三项：重构项、去噪 KL 散度之和、以及初始噪声匹配项。与自回归的精确似然不同，扩散模型始终存在变分间隙（Variational Gap），即下界与真实对数似然之差。

7.3 跨模态生成中的下界差异推导

在 Any-to-Any 场景中，条件 $c$ 本身可能来自另一模态（如文本生成图像）。设目标模态为 $x$ （图像离散 token），条件模态为 $y$ （文本 token）。自回归模型将条件编码为前缀，直接最大化：

$\log p_{\theta}(x \mid y) = \sum_{t=1}^{T_x} \log p_{\theta}(x_t \mid x_{<t}, y)$

扩散模型则需通过条件编码器 $cϕ(y)c_{\phi}(y)$ 将文本映射为扩散条件，优化：

$\mathcal{L}_{\text{ELBO}}^{\text{cross}} = \mathbb{E}_{q} \left[ \log p_{\theta}(x_0 \mid x_1, c_{\phi}(y)) - \sum_{t=2}^{T} D_{\text{KL}}(q_{t-1} \| p_{\theta,t-1}^{c_{\phi}(y)}) \right] + C$

两者的核心差异体现在三个层面：

第一，条件注入的紧致性。自回归中条件 $y$ 与目标 $x$ 共享同一序列空间，通过标准注意力机制直接交互，条件信息无损失传递。扩散模型中条件需经独立编码器 $cϕc_{\phi}$ 压缩为隐向量或交叉注意力查询，引入额外的信息瓶颈。可证明，扩散跨模态 ELBO 相比自回归存在额外的条件编码损失项：

$\Delta_{\text{cond}} = I(x; y) - I(x; c_{\phi}(y)) \geq 0$

即条件编码器无法保留超过其容量的互信息，导致下界进一步松弛。

第二，序列结构的建模能力。自回归的链式分解天然适配离散 token 的序列结构，但假设了严格的顺序生成。扩散模型的双向注意力可打破顺序约束，更适合图像等需要全局一致性的模态。然而，这种灵活性以变分间隙为代价——ELBO 中的 KL 求和项 $T$ 通常对应数十至数百个去噪步，每一步的近似误差累积。

第三，模态对齐的隐式假设。自回归模型假设所有模态已对齐至统一离散空间（通过 tokenizer），对齐质量由码本学习保证。扩散模型则需在连续空间学习跨模态对齐，其下界对条件编码器的平滑性敏感：若 $cϕc_{\phi}$ 在不同模态间产生分布偏移，ELBO 的重构项将系统性偏离真实数据分布。

7.4 统一视角：混合目标的理论优势

Show-o 与 Unified-IO 2 的混合架构试图融合两者优势。其理论直觉是：对文本等顺序敏感的模态采用自回归目标，对图像等全局结构模态采用离散扩散目标。统一损失可写为：

$\mathcal{L}_{\text{unified}} = \underbrace{\sum_{t \in \text{text}} \log p_{\theta}(x_t \mid x_{<t})}_{\text{AR项}} + \underbrace{\mathbb{E}_{t, \text{mask}} \left[ -\log p_{\theta}(x_0^{\text{vis}} \mid x_t^{\text{vis}}) \right]}_{\text{Diff项}}$

该混合目标的上界分析表明：当 AR 项与 Diff 项的模态覆盖互不重叠时，总损失的下界等于各自下界之和；当存在共享 token（如文本-图像交错序列）时，双向注意力与因果掩码的交互可能引入额外的梯度冲突，需通过 QK 归一化与模态特定的注意力掩码加以隔离。

8. 各模块设计图

8.1 统一编码器-解码器结构

8.2 多模态混合去噪目标

9. 协同设计：跨模态数据流与闭环

跨模态生成的关键闭环在于Tokenizer-Detokenizer 的语义一致性。若 tokenizer 将图像编码为离散 token 时丢失关键语义（如空间关系），则无论 LLM 推理能力多强，detokenizer 都无法恢复缺失信息。因此，Any-to-Any 系统的训练流程通常包含码本-LLM 联合优化：tokenizer 的码本嵌入与 LLM 的输入嵌入共享空间，通过端到端梯度反向传播确保 tokenizer 学习对下游任务友好的离散表示。

10. 接口对接图：输入输出定义

接口	类型	维度	说明
文本序列	输入/输出	$(Ttxt,)(T_{\text{txt}},)$	BPE 索引，支持 Unicode
图像张量	输入	$(H, W, 3)$	原始像素，经 ViT 编码
图像 Token	输出	$(Timg,)(T_{\text{img}},)$	VQ-GAN 码本索引，1024 token/图
音频波形	输入	$(Lwav,)(L_{\text{wav}},)$	原始波形，经 Codec 编码
音频 Token	输出	$(Taud,)(T_{\text{aud}},)$	Codec 离散索引
动作向量	输入/输出	$(Tact,)(T_{\text{act}},)$	离散化指令 token
统一嵌入	内部	$(Ttotal,d)(T_{\text{total}}, d)$	所有模态拼接后的统一序列

11. 完整三层架构总览图

12. 训练稳定性与架构关键改进

12.1 多模态训练的梯度危机

Unified-IO 2 的训练日志揭示了一个普遍现象：单一模态（如图像生成）训练稳定；引入文本后梯度范数小幅上升但仍可控；加入视频模态后梯度范数失控飙升，最终导致损失爆炸。其根源在于不同模态的注意力 logits 尺度差异巨大——图像与音频 patch 的嵌入范数远高于文本 token，导致 Softmax 输出趋近 0/1 分布，反向传播梯度消失或爆炸。

12.2 三项稳定化技术

QK 归一化：在点积注意力前对 Query 与 Key 施加 LayerNorm，将 logits 约束在合理区间：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{\text{LayerNorm}(Q) \cdot \text{LayerNorm}(K)^\top}{\sqrt{d}}\right) V$

二维旋转位置编码（2D RoPE）：对图像、音频等非一维模态，将位置编码扩展至二维。对索引 $(i, j)$ ，将 Q/K 嵌入切分为两半，分别用横纵坐标构造旋转角，保留空间结构的相对位置信息。

缩放余弦注意力：在 Perceiver Resampler 中采用更严格的归一化，以余弦相似度替代点积，并引入可学习温度系数 $τ\tau$ ：

$\text{sim}(q, k) = \frac{q \cdot k}{\|q\| \|k\|} \cdot \tau$

三项技术联用后，Unified-IO 2 的 XXL 版本在 7B 参数规模下实现全模态稳定收敛。

13. 结论与展望

Any-to-Any 范式通过统一离散 token 表示，首次在单一模型内实现了文本、图像、音频、动作的任意组合理解与生成。Gemini 与 Unified-IO 2 分别代表了早期融合与统一编码器-解码器两条实现路径；AnyGPT 则证明离散表示足以支撑零样本跨模态对话。

在理论层面，自回归模型直接优化精确对数似然，适合顺序模态；扩散模型通过变分下界逼近数据分布，适合全局结构模态，但跨模态条件编码引入额外信息瓶颈。混合架构（如 Show-o）通过模态特定目标组合两者优势，是未来统一多模态建模的重要方向。

当前挑战仍存：超长视频序列的 token 爆炸、多模态tokenizer的联合优化、以及实时流式 Any-to-Any 生成的效率问题。随着多 token 量化与动态打包技术的成熟，统一多模态模型正逐步从研究原型走向生产部署。

参考文献

Team, G. et al. (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv preprint arXiv:2312.11805.
Lu, J. et al. (2023). Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action. CVPR 2024 / arXiv:2312.17172.
Ge, T. et al. (2024). AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling. arXiv preprint arXiv:2402.12226.
Team, C. (2024). Chameleon: Mixed-Modal Early-Fusion Foundation Models. arXiv preprint arXiv:2405.09818.
Xie, J. et al. (2024). Show-o: One Single Transformer to Unify Multimodal Understanding and Generation. arXiv preprint arXiv:2408.12528.
Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR.
Ho, J. et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 33.