【多模态基础模型与具身智能】12 生成式统一多模态:Any-to-Any 范式

生成式统一多模态:Any-to-Any 范式

目标导向:掌握基于离散/连续 token 统一表示的任意模态生成原理;推导扩散模型与自回归模型在跨模态生成中的似然下界差异;建立 Any-to-Any 架构的系统认知。全文以中文成段讲述为主,仅在必要处给出关键公式。


1. 问题背景:从双模态到任意模态

1.1 多模态生成的范式演进

传统多模态模型采用晚期融合架构:各模态拥有独立的编码器,仅在高层语义空间进行交互。典型代表如 Flamingo、LLaVA 等,图像经 ViT 编码为连续特征向量,再与文本 token 拼接输入 LLM。这种架构的局限在于:模型天然偏向文本驱动的理解任务,难以实现真正的跨模态生成。

Any-to-Any 范式的核心突破在于统一表示空间——将文本、图像、音频、视频、动作乃至 3D 结构全部编码为同一空间中的 token 序列,由单一 Transformer 统一处理理解与生成。Gemini 与 Unified-IO 2 是该范式的里程碑:前者采用早期融合的 token-based 架构,使用离散图像 token 实现原生多模态推理;后者则通过统一的编码器-解码器 Transformer,将图像、文本、音频、动作全部 token 化后自回归建模,从 scratch 训练出 7B 参数的统一模型,在超过 35 个基准上取得强性能。

1.2 离散 vs 连续:统一表示的两条路线

统一表示空间存在两条技术路线:

维度离散 Token 路线连续特征路线
代表模型AnyGPT、Chameleon、Unified-IO 2Flamingo、LLaVA、SEED-X
编码方式VQ-GAN / VQ-VAE 码本索引ViT 连续特征向量
生成机制自回归 Next-Token Prediction扩散模型去噪
模态兼容性天然统一,新增模态如加新语言需设计模态对齐层
信息瓶颈单 token 容量有限,需多 token 扩展信息密度高,但模态间对齐困难

离散路线的核心优势在于与 LLM 生态完全兼容:无需改动模型架构,仅需数据层面的 tokenizer 与 detokenizer 即可接入新模态。AnyGPT 的实践证明,离散表示过滤了高频感知噪声、保留低频语义信息,使模型在零样本条件下即可实现任意模态组合的对话生成。然而,离散 token 的信息密度瓶颈也导致早期模型的多模态理解能力弱于连续特征 VLM。Kelix 等后续工作通过多 token 乘积量化(每个 patch 嵌入分解为多个并行离散 token)显著扩展了码本的有效容量,弥合了这一差距。


2. 总体架构:Tokenizer-LLM-Detokenizer 三层分解

Any-to-Any 系统可抽象为经典的三层流水线,每层职责清晰、可独立迭代。

Detokenizer层

LLM核心层

Tokenizer层

原始模态输入

Tokenizer层

统一Token空间

LLM核心层

统一Token输出

Detokenizer层

目标模态输出

文本BPE

图像VQGAN

音频Codec

动作离散化

编码器

解码器

自回归头

扩散头

文本反BPE

图像VQGAN解码

音频Codec解码

动作反离散化

Tokenizer 层负责将各模态的原始信号压缩为统一语义空间中的 token。文本使用字节对编码(BPE),图像通过预训练 VQ-GAN 转换为离散码本索引,音频经神经音频 codec 离散化,动作与稀疏结构(边界框、关键点)则通过特殊位置 token 编码。LLM 核心层在统一 token 空间执行序列建模,可采用自回归或离散扩散目标。Detokenizer 层将生成的 token 序列还原为感知级输出,图像常用扩散解码器提升保真度,音频通过声码器重建波形。


3. 知识图谱:Any-to-Any 概念层级

Any-to-Any生成

统一表示

跨模态对齐

生成范式

训练稳定性

离散Token

连续特征

多Token量化

文本桥接

语义空间

码本对齐

自回归AR

离散扩散

混合目标

QK归一化

二维RoPE

余弦注意力


4. 统一表示:离散 Token 的编码与解码

4.1 文本与稀疏结构

文本输入输出采用 LLaMA 的 BPE 分词器,支持 Unicode 符号与空格保留。稀疏结构(边界框、关键点、相机位姿)通过 1000 个特殊位置 token 离散化:点用两个 token(x, y),边界框用四个 token(左上角与右下角),3D 立方体用 12 个 token 编码投影中心、虚拟深度与对数归一化尺寸。机器人动作则直接生成文本指令(如"move ahead"),状态信息通过特殊 token 注入。

4.2 图像的离散化与信息瓶颈

图像生成采用 VQ-GAN 将连续像素空间映射为离散码本。以 Unified-IO 2 为例,其使用 8×8 patch 的密集 VQ-GAN,将 256×256 图像编码为 1024 个 token,码本大小 16512。每个离散 token 承载对应图像 patch 的语义信息,过滤了高频纹理噪声。

然而,单离散 token 的信息容量远低于其替代的连续嵌入向量,形成信息瓶颈。Kelix 的解决方案是乘积量化:将每个 ViT patch 嵌入分解为 MMM 个并行的离散子码本索引,有效码本空间从 ∣C∣|C|C 扩展为 ∣C∣M|C|^MCM。例如,当 M=4M=4M=4、单码本大小为 1024 时,等效容量达 10244≈10121024^4 \approx 10^{12}102441012,远超单 token 的 1024 种状态。这种多 token 表示使离散视觉模型的理解能力首次媲美连续特征 VLM。

4.3 音频与视频的 Token 化

音频通过神经 codec(如 SoundStream、EnCodec)压缩为离散 token 序列,兼顾语义内容与声学细节。视频则被视为带时序的图像序列,每帧独立经 VQ-GAN 编码后,在时间轴上拼接为长 token 序列。Unified-IO 2 的实践中,音频与视频的引入显著增加了训练不稳定性——多模态梯度范数随模态增加而失控攀升,需借助 QK 归一化与缩放余弦注意力机制加以抑制。

原始信号

模态Tokenizer

文本BPE

图像VQGAN

音频Codec

动作离散化

统一Token序列

LLM处理

输出Token序列

文本反编码

图像VQGAN解码

音频Codec解码

动作反离散化


5. 自回归模型:Any-to-Any 的序列生成

5.1 统一编码器-解码器架构

Unified-IO 2 采用单一的 Transformer 编码器-解码器处理所有模态。输入端,文本 token 经嵌入层映射为向量,图像 patch 特征经线性层投影,音频段经 Perceiver Resampler 压缩为固定长度 token;所有嵌入拼接为统一序列送入编码器。输出端,解码器以自回归方式逐个预测下一个 token,预测目标可能是文本 token、图像 VQ-GAN 索引或音频 codec 索引。

5.2 多模态混合去噪目标

为在统一框架内同时支持理解与生成,Unified-IO 2 提出多模态混合去噪器(Multimodal Mixture of Denoisers)目标。该目标将不同模态的自监督信号统一为去噪形式:文本采用标准因果掩码,图像采用区块掩码预测,音频采用时频掩码恢复。所有任务共享同一套 next-token 预测接口,仅掩码模式与目标模态不同。这种设计使模型在 600TB 的多模态语料上获得稳定的自监督信号。

5.3 自回归的似然建模

对于离散 token 序列 x=(x1,x2,…,xT)x = (x_1, x_2, \dots, x_T)x=(x1,x2,,xT),自回归模型通过链式法则分解联合分布:

p(x∣c)=∏t=1Tpθ(xt∣x<t,c) p(x \mid c) = \prod_{t=1}^{T} p_{\theta}(x_t \mid x_{<t}, c) p(xc)=t=1Tpθ(xtx<t,c)

其中 ccc 为跨模态条件信息(如文本描述对应的图像生成任务)。训练目标为最大化对数似然:

LAR=Ex∼pdata[∑t=1Tlog⁡pθ(xt∣x<t,c)] \mathcal{L}_{\text{AR}} = \mathbb{E}_{x \sim p_{\text{data}}} \left[ \sum_{t=1}^{T} \log p_{\theta}(x_t \mid x_{<t}, c) \right] LAR=Expdata[t=1Tlogpθ(xtx<t,c)]

该目标直接优化数据分布的联合似然,无需引入隐变量。其优势在于:解码过程确定性高,每步仅需一次前向传播与采样;与文本 LLM 的训练基础设施完全兼容,支持动态打包(Dynamic Packing)等高效训练技术。局限在于:对高维连续模态(如高分辨率图像),序列长度 TTT 爆炸导致推理成本高昂;且单向因果掩码限制了全局上下文的同时利用。


6. 扩散模型:跨模态生成的概率视角

6.1 连续空间的去噪扩散

扩散模型在连续空间定义前向加噪过程 q(xt∣xt−1)q(x_t \mid x_{t-1})q(xtxt1) 与反向去噪过程 pθ(xt−1∣xt,c)p_{\theta}(x_{t-1} \mid x_t, c)pθ(xt1xt,c)。训练目标为变分下界(ELBO),可简化为去噪均方误差:

Ldiff=Ex0,t,ϵ[∥ϵ−ϵθ(xt,t,c)∥2] \mathcal{L}_{\text{diff}} = \mathbb{E}_{x_0, t, \epsilon} \left[ \| \epsilon - \epsilon_{\theta}(x_t, t, c) \|^2 \right] Ldiff=Ex0,t,ϵ[ϵϵθ(xt,t,c)2]

其中 xt=αˉtx0+1−αˉtϵx_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilonxt=αˉtx0+1αˉtϵϵ∼N(0,I)\epsilon \sim \mathcal{N}(0, I)ϵN(0,I)。条件 ccc 通常通过交叉注意力注入 U-Net 或 Transformer 骨干。

6.2 离散扩散与掩码建模

在 Any-to-Any 的离散 token 空间中,扩散过程需适配离散状态。Omni-Diffusion 与 Show-o 采用吸收态离散扩散:以特殊 [MASK] token 替代原始 token,模型学习从掩码序列中恢复干净序列。训练损失为掩码位置的交叉熵:

Lddpm=Ex0,t[−log⁡pθ(x0∣xt)] \mathcal{L}_{\text{ddpm}} = \mathbb{E}_{x_0, t} \left[ -\log p_{\theta}(x_0 \mid x_t) \right] Lddpm=Ex0,t[logpθ(x0xt)]

其中 xtx_txt 为时间步 ttt 的掩码序列,掩码比例随 ttt 增加。离散扩散的优势在于:双向注意力允许全局依赖建模,适合需要整体布局一致的图像生成;并行解码潜力大,可通过迭代去噪在数十步内完成生成。


7. 似然下界差异:AR 与 Diffusion 的理论对比

7.1 自回归的精确对数似然

自回归模型直接建模数据分布,其对数似然无需近似:

log⁡pθ(x)=∑t=1Tlog⁡pθ(xt∣x<t,c) \log p_{\theta}(x) = \sum_{t=1}^{T} \log p_{\theta}(x_t \mid x_{<t}, c) logpθ(x)=t=1Tlogpθ(xtx<t,c)

在离散 token 空间,每个条件分布 pθ(xt∣x<t,c)p_{\theta}(x_t \mid x_{<t}, c)pθ(xtx<t,c) 经 Softmax 归一化后构成合法概率质量函数,模型可通过标准最大似然训练精确优化该目标。

7.2 扩散模型的变分下界

扩散模型的对数似然无法直接计算,需通过变分推断引入下界。设前向过程 q(x1:T∣x0)q(x_{1:T} \mid x_0)q(x1:Tx0) 为固定马尔可夫链,反向过程 pθ(x0:T∣c)p_{\theta}(x_{0:T} \mid c)pθ(x0:Tc) 为可学习马尔可夫链。对数似然的 ELBO 为:

log⁡pθ(x0∣c)≥Eq[log⁡pθ(x0∣x1,c)−∑t=2TDKL(q(xt−1∣xt,x0)∥pθ(xt−1∣xt,c))−DKL(q(xT∣x0)∥p(xT∣c))] \log p_{\theta}(x_0 \mid c) \geq \mathbb{E}_q \left[ \log p_{\theta}(x_0 \mid x_1, c) - \sum_{t=2}^{T} D_{\text{KL}}\big(q(x_{t-1} \mid x_t, x_0) \| p_{\theta}(x_{t-1} \mid x_t, c)\big) - D_{\text{KL}}\big(q(x_T \mid x_0) \| p(x_T \mid c)\big) \right] logpθ(x0c)Eq[logpθ(x0x1,c)t=2TDKL(q(xt1xt,x0)pθ(xt1xt,c))DKL(q(xTx0)p(xTc))]

该下界包含三项:重构项、去噪 KL 散度之和、以及初始噪声匹配项。与自回归的精确似然不同,扩散模型始终存在变分间隙(Variational Gap),即下界与真实对数似然之差。

7.3 跨模态生成中的下界差异推导

在 Any-to-Any 场景中,条件 ccc 本身可能来自另一模态(如文本生成图像)。设目标模态为 xxx(图像离散 token),条件模态为 yyy(文本 token)。自回归模型将条件编码为前缀,直接最大化:

log⁡pθ(x∣y)=∑t=1Txlog⁡pθ(xt∣x<t,y) \log p_{\theta}(x \mid y) = \sum_{t=1}^{T_x} \log p_{\theta}(x_t \mid x_{<t}, y) logpθ(xy)=t=1Txlogpθ(xtx<t,y)

扩散模型则需通过条件编码器 cϕ(y)c_{\phi}(y)cϕ(y) 将文本映射为扩散条件,优化:

LELBOcross=Eq[log⁡pθ(x0∣x1,cϕ(y))−∑t=2TDKL(qt−1∥pθ,t−1cϕ(y))]+C \mathcal{L}_{\text{ELBO}}^{\text{cross}} = \mathbb{E}_{q} \left[ \log p_{\theta}(x_0 \mid x_1, c_{\phi}(y)) - \sum_{t=2}^{T} D_{\text{KL}}(q_{t-1} \| p_{\theta,t-1}^{c_{\phi}(y)}) \right] + C LELBOcross=Eq[logpθ(x0x1,cϕ(y))t=2TDKL(qt1pθ,t1cϕ(y))]+C

两者的核心差异体现在三个层面:

第一,条件注入的紧致性。自回归中条件 yyy 与目标 xxx 共享同一序列空间,通过标准注意力机制直接交互,条件信息无损失传递。扩散模型中条件需经独立编码器 cϕc_{\phi}cϕ 压缩为隐向量或交叉注意力查询,引入额外的信息瓶颈。可证明,扩散跨模态 ELBO 相比自回归存在额外的条件编码损失项:

Δcond=I(x;y)−I(x;cϕ(y))≥0 \Delta_{\text{cond}} = I(x; y) - I(x; c_{\phi}(y)) \geq 0 Δcond=I(x;y)I(x;cϕ(y))0

即条件编码器无法保留超过其容量的互信息,导致下界进一步松弛。

第二,序列结构的建模能力。自回归的链式分解天然适配离散 token 的序列结构,但假设了严格的顺序生成。扩散模型的双向注意力可打破顺序约束,更适合图像等需要全局一致性的模态。然而,这种灵活性以变分间隙为代价——ELBO 中的 KL 求和项 TTT 通常对应数十至数百个去噪步,每一步的近似误差累积。

第三,模态对齐的隐式假设。自回归模型假设所有模态已对齐至统一离散空间(通过 tokenizer),对齐质量由码本学习保证。扩散模型则需在连续空间学习跨模态对齐,其下界对条件编码器的平滑性敏感:若 cϕc_{\phi}cϕ 在不同模态间产生分布偏移,ELBO 的重构项将系统性偏离真实数据分布。

7.4 统一视角:混合目标的理论优势

Show-o 与 Unified-IO 2 的混合架构试图融合两者优势。其理论直觉是:对文本等顺序敏感的模态采用自回归目标,对图像等全局结构模态采用离散扩散目标。统一损失可写为:

Lunified=∑t∈textlog⁡pθ(xt∣x<t)⏟AR项+Et,mask[−log⁡pθ(x0vis∣xtvis)]⏟Diff项 \mathcal{L}_{\text{unified}} = \underbrace{\sum_{t \in \text{text}} \log p_{\theta}(x_t \mid x_{<t})}_{\text{AR项}} + \underbrace{\mathbb{E}_{t, \text{mask}} \left[ -\log p_{\theta}(x_0^{\text{vis}} \mid x_t^{\text{vis}}) \right]}_{\text{Diff项}} Lunified=ARttextlogpθ(xtx<t)+DiffEt,mask[logpθ(x0visxtvis)]

该混合目标的上界分析表明:当 AR 项与 Diff 项的模态覆盖互不重叠时,总损失的下界等于各自下界之和;当存在共享 token(如文本-图像交错序列)时,双向注意力与因果掩码的交互可能引入额外的梯度冲突,需通过 QK 归一化与模态特定的注意力掩码加以隔离。


8. 各模块设计图

8.1 统一编码器-解码器结构

文本Token

嵌入层

图像Patch

ViT编码

音频波形

Codec编码

统一序列拼接

编码器Transformer

隐状态表示

解码器Transformer

自回归头

扩散头

文本图像音频Token

8.2 多模态混合去噪目标

原始序列

掩码采样

文本因果掩码

图像区块掩码

音频时频掩码

损坏序列

统一Transformer

预测头

文本交叉熵

图像交叉熵

音频交叉熵

混合损失


9. 协同设计:跨模态数据流与闭环

文本输入

Tokenizer

图像输入

音频输入

统一Token流

编码器

跨模态注意力

解码器

输出生成

文本Detokenizer

图像Detokenizer

音频Detokenizer

多模态输出

反馈循环

质量评估

Tokenizer迭代

跨模态生成的关键闭环在于Tokenizer-Detokenizer 的语义一致性。若 tokenizer 将图像编码为离散 token 时丢失关键语义(如空间关系),则无论 LLM 推理能力多强,detokenizer 都无法恢复缺失信息。因此,Any-to-Any 系统的训练流程通常包含码本-LLM 联合优化:tokenizer 的码本嵌入与 LLM 的输入嵌入共享空间,通过端到端梯度反向传播确保 tokenizer 学习对下游任务友好的离散表示。


10. 接口对接图:输入输出定义

输入接口

文本序列

图像张量

音频波形

动作向量

Any-to-Any核心

输出接口

文本Token

图像Token

音频Token

动作Token

下游解码器

接口类型维度说明
文本序列输入/输出(Ttxt,)(T_{\text{txt}},)(Ttxt,)BPE 索引,支持 Unicode
图像张量输入(H,W,3)(H, W, 3)(H,W,3)原始像素,经 ViT 编码
图像 Token输出(Timg,)(T_{\text{img}},)(Timg,)VQ-GAN 码本索引,1024 token/图
音频波形输入(Lwav,)(L_{\text{wav}},)(Lwav,)原始波形,经 Codec 编码
音频 Token输出(Taud,)(T_{\text{aud}},)(Taud,)Codec 离散索引
动作向量输入/输出(Tact,)(T_{\text{act}},)(Tact,)离散化指令 token
统一嵌入内部(Ttotal,d)(T_{\text{total}}, d)(Ttotal,d)所有模态拼接后的统一序列

11. 完整三层架构总览图

物理层

信号层

应用层

多模态对话

指令跟随

任务路由

Any-to-Any调度

Tokenizer

统一序列

AR建模

Diff建模

跨模态注意力

输出生成

文本Codec

图像Codec

音频Codec

动作Codec

码本存储


12. 训练稳定性与架构关键改进

12.1 多模态训练的梯度危机

Unified-IO 2 的训练日志揭示了一个普遍现象:单一模态(如图像生成)训练稳定;引入文本后梯度范数小幅上升但仍可控;加入视频模态后梯度范数失控飙升,最终导致损失爆炸。其根源在于不同模态的注意力 logits 尺度差异巨大——图像与音频 patch 的嵌入范数远高于文本 token,导致 Softmax 输出趋近 0/1 分布,反向传播梯度消失或爆炸。

12.2 三项稳定化技术

QK 归一化:在点积注意力前对 Query 与 Key 施加 LayerNorm,将 logits 约束在合理区间:

Attention(Q,K,V)=softmax(LayerNorm(Q)⋅LayerNorm(K)⊤d)V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{\text{LayerNorm}(Q) \cdot \text{LayerNorm}(K)^\top}{\sqrt{d}}\right) V Attention(Q,K,V)=softmax(dLayerNorm(Q)LayerNorm(K))V

二维旋转位置编码(2D RoPE):对图像、音频等非一维模态,将位置编码扩展至二维。对索引 (i,j)(i, j)(i,j),将 Q/K 嵌入切分为两半,分别用横纵坐标构造旋转角,保留空间结构的相对位置信息。

缩放余弦注意力:在 Perceiver Resampler 中采用更严格的归一化,以余弦相似度替代点积,并引入可学习温度系数 τ\tauτ

sim(q,k)=q⋅k∥q∥∥k∥⋅τ \text{sim}(q, k) = \frac{q \cdot k}{\|q\| \|k\|} \cdot \tau sim(q,k)=q∥∥kqkτ

三项技术联用后,Unified-IO 2 的 XXL 版本在 7B 参数规模下实现全模态稳定收敛。


13. 结论与展望

Any-to-Any 范式通过统一离散 token 表示,首次在单一模型内实现了文本、图像、音频、动作的任意组合理解与生成。Gemini 与 Unified-IO 2 分别代表了早期融合与统一编码器-解码器两条实现路径;AnyGPT 则证明离散表示足以支撑零样本跨模态对话。

在理论层面,自回归模型直接优化精确对数似然,适合顺序模态;扩散模型通过变分下界逼近数据分布,适合全局结构模态,但跨模态条件编码引入额外信息瓶颈。混合架构(如 Show-o)通过模态特定目标组合两者优势,是未来统一多模态建模的重要方向。

当前挑战仍存:超长视频序列的 token 爆炸、多模态tokenizer的联合优化、以及实时流式 Any-to-Any 生成的效率问题。随着多 token 量化与动态打包技术的成熟,统一多模态模型正逐步从研究原型走向生产部署。


参考文献

  • Team, G. et al. (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv preprint arXiv:2312.11805.
  • Lu, J. et al. (2023). Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action. CVPR 2024 / arXiv:2312.17172.
  • Ge, T. et al. (2024). AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling. arXiv preprint arXiv:2402.12226.
  • Team, C. (2024). Chameleon: Mixed-Modal Early-Fusion Foundation Models. arXiv preprint arXiv:2405.09818.
  • Xie, J. et al. (2024). Show-o: One Single Transformer to Unify Multimodal Understanding and Generation. arXiv preprint arXiv:2408.12528.
  • Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR.
  • Ho, J. et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 33.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

VectorShift

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值