【多模态基础模型与具身智能】13 视觉-语言-行动（VLA）端到端模型

最新推荐文章于 2026-06-29 21:19:11 发布

原创最新推荐文章于 2026-06-29 21:19:11 发布 · 338 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

机器学习

视觉-语言-行动（VLA）端到端模型

从视觉感知到电机控制的联合概率建模，推导动作分块（Action Chunking）与扩散策略（Diffusion Policy）

一、核心概念与知识图谱

VLA 模型将视觉感知、语言理解与电机控制统一为端到端的联合概率推理问题。其本质是将机器人控制视为条件生成任务：给定视觉观测 $o_t$ 与自然语言指令 $l$ ，模型输出未来 $H$ 步的动作块 $At=[at,at+1,…,at+H−1]A_t = [a_t, a_{t+1}, \dots, a_{t+H-1}]$ 。动作分块打破传统马尔可夫假设，直接建模时序动作的联合分布；扩散策略则通过去噪过程刻画多模态动作分布，避免回归平均化导致的模式坍缩。

二、总体结构图

VLA 的顶层架构遵循"感知-认知-执行"三段式。视觉编码器将多视角图像映射为语义-空间融合特征；语言指令经分词后嵌入同一隐空间；动作专家（Action Expert）接收视觉-语言联合表征，通过动作分块或扩散 head 输出未来时序的动作轨迹。

三、动作分块模块设计

动作分块（Action Chunking）是 VLA 将单步预测扩展为时序联合预测的关键机制。传统策略每步仅预测 $a_t$ ，导致复合误差累积；动作分块直接输出 $At=[at,…,at+H−1]A_t = [a_t, \dots, a_{t+H-1}]$ ，使模型在单次前向中规划完整局部轨迹。

四、扩散策略模块设计

扩散策略将动作生成视为条件去噪过程。不同于回归 head 输出确定性动作，扩散 head 学习从噪声中恢复动作块，天然支持多模态动作分布——同一观测下"向左取杯"与"向右取杯"可被同时建模为分布的两个峰值。

五、模块协同与闭环数据流

VLA 的推理闭环遵循"观测-规划-执行-更新"循环。视觉编码器与语言模型输出的 KV 缓存被动作专家复用；动作块经机器人执行后产生新观测，重新进入模型输入。该闭环中，动作分块显著降低了推理频率需求：模型每 $H$ 步执行一次前向，而非每步一次。

六、接口对接与信号流向

VLA 系统的对外接口包括：视觉输入（多视角 RGB 或点云）、语言指令（自然语言字符串）、本体感知（关节角/末端位姿，可选）。内部信号流中，视觉 token 与语言 token 经投影后拼接为统一序列；动作专家输出连续值或离散 token；控制接口将动作块解析为电机指令序列。

七、三层架构总览

物理层部署于 GPU 集群或边缘计算节点，承载视觉编码器与大语言模型的前向计算；信号层处理三类数据流：视觉 token 流、语言 token 流、动作轨迹流；应用层面向具体机器人平台（单臂/双臂/人形），通过动作块解析器将抽象动作映射为平台特定的电机控制指令。

八、联合概率建模与动作分块推导

8.1 从感知到控制的联合分布

设时刻 $t$ 的视觉观测为 $o_t$ （可由多视角图像经视觉编码器提取的 token 序列表示），语言指令为 $l$ ，未来 $H$ 步的动作块为 $At=[at,at+1,…,at+H−1]A_t = [a_t, a_{t+1}, \dots, a_{t+H-1}]$ ，其中每个动作 $at+i∈Rdaa_{t+i} \in \mathbb{R}^{d_a}$ 通常包含末端执行器的三维平移、三维旋转与夹爪开度（共 7 维）。VLA 的核心任务是建模条件联合概率

$P(At∣ot,l).P(A_t \mid o_t, l).$

传统逐步策略采用自回归分解 $P(at∣ot,l)P(a_t \mid o_t, l)$ ，每步独立预测，忽略了动作间的时序相关性，导致复合误差随步数指数增长。动作分块通过直接建模联合分布，将 $H$ 步动作作为整体输出，从根本上抑制误差累积。citeweb_search:5#0web_search:5#3

8.2 OpenVLA 的离散化分块

OpenVLA 将连续动作空间映射到语言模型的离散词汇表。对每一维动作标量，基于训练数据的第 1 至第 99 百分位区间进行均匀分桶，得到 256 个离散 bin。7 维动作对应 7 个离散 token， $K$ 步动作分块则产生 $\times 7$ 个动作 token。citeweb_search:5#6web_search:5#12

原始 OpenVLA 采用因果注意力自回归生成这些 token，导致生成长度为 $L$ 的块需要 $L$ 次串行前向。OpenVLA-OFT 改进为并行解码：将空动作嵌入（以位置编码区分时序）输入解码器，改用双向注意力，使模型在单次前向中并行输出全部 $L$ 个 token。此时推理延迟从 $\cdot d_a)$ 降至 $O (1)$ ，实现约 $K$ 倍的吞吐提升。citeweb_search:5#0

设视觉-语言联合表征为 $hvl=Encoder(ot,l)h_{vl} = \text{Encoder}(o_t, l)$ ，并行解码的动作分块可形式化为

$At=MLPhead(Transformerbidir(hvl,Epos)),A_t = \text{MLP}_{\text{head}}\big(\text{Transformer}_{\text{bidir}}(h_{vl}, E_{\text{pos}})\big),$

其中 $EposE_{\text{pos}}$ 为动作位置的嵌入矩阵，MLP head 将每层隐藏状态映射到连续动作值（OpenVLA-OFT 的 L1 回归方案）或离散 logits（原始 OpenVLA）。citeweb_search:5#0

8.3 π₀ 的流匹配分块

π₀ 采用流匹配（Flow Matching）而非离散 token 化来生成连续动作块。其动作专家接收 VLM 输出的 KV 缓存作为条件，通过常微分方程（ODE）生成动作轨迹。设动作块为 $\in \mathbb{R}^{H \times d_a}$ ，流匹配定义速度场 $v_t(x)$ 满足

$dxdt=vt(x),x0∼N(0,I),x1∼P(At∣ot,l).\frac{dx}{dt} = v_t(x), \quad x_0 \sim \mathcal{N}(0, I), \quad x_1 \sim P(A_t \mid o_t, l).$

训练目标为回归条件速度场：

$LFM=Et,x0,x1[∥vθ(xt,t,c)−(x1−x0)∥2],\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_0, x_1} \left[ \left\| v_\theta(x_t, t, c) - (x_1 - x_0) \right\|^2 \right],$

其中 $c$ 为视觉-语言条件， $x_t = (1-t)x_0 + t x_1$ 为线性插值。推理时通过 10 步 ODE 求解即可从噪声生成平滑动作块，天然支持高频控制（50 Hz）下的长时序规划。citeweb_search:4#1web_search:5#3

8.4 动作分块的期望增益

设单步前向延迟为 $τ\tau$ ，控制周期为 $Δt\Delta t$ 。无分块时，模型需在每步控制周期内完成一次前向，最大控制频率为 $fmax⁡=1/τf_{\max} = 1/\tau$ 。采用 $K$ 步分块后，模型每 $\Delta t$ 执行一次前向，等效控制频率提升为

$feff=Kτ=K⋅fmax⁡.f_{\text{eff}} = \frac{K}{\tau} = K \cdot f_{\max}.$

实际部署中，π₀ 使用 $K = 50$ 的分块在 50 Hz 控制率下实现 1 秒前瞻规划，推理延迟仅 73 ms，远小于分块执行周期 1000 ms，从而支持实时异步执行策略。citeweb_search:5#3

九、扩散策略推导

9.1 条件去噪扩散框架

Diffusion Policy（Chi et al., RSS 2023）将动作块生成建模为条件去噪扩散过程。设动作块 $A^0$ 为去噪目标，前向过程在第 $k$ 步施加高斯噪声：

$q(Ak∣A0)=N(Ak;αˉkA0,(1−αˉk)I),q(A^k \mid A^0) = \mathcal{N}\left(A^k; \sqrt{\bar{\alpha}_k} A^0, (1 - \bar{\alpha}_k) I\right),$

其中 $αˉk=∏i=1k(1−βi)\bar{\alpha}_k = \prod_{i=1}^k (1 - \beta_i)$ 为累积噪声系数， $βi\beta_i$ 为预设的噪声调度。citeweb_search:5#2web_search:5#4

9.2 噪声预测与训练目标

反向过程学习条件噪声预测网络 $ϵθ\epsilon_\theta$ ，其输入为带噪动作块 $A^k$ 、噪声步 $k$ 、以及视觉-语言条件 $c$ 。训练采用简化的均方误差损失：

$LDP=Ek∼U(1,K),A0,ϵ∼N(0,I)[∥ϵ−ϵθ(αˉkA0+1−αˉkϵ,k,c)∥2].\mathcal{L}_{\text{DP}} = \mathbb{E}_{k \sim \mathcal{U}(1,K), A^0, \epsilon \sim \mathcal{N}(0,I)} \left[ \left\| \epsilon - \epsilon_\theta\left(\sqrt{\bar{\alpha}_k} A^0 + \sqrt{1-\bar{\alpha}_k} \epsilon, k, c\right) \right\|^2 \right].$

该目标等价于得分匹配，使网络学会从噪声中恢复干净动作块。citeweb_search:5#4web_search:5#7

9.3 多模态分布的自然表达

扩散策略的核心优势在于对多模态动作分布的原生支持。传统 MSE 行为克隆将"向左取杯"与"向右取杯"两种正确策略平均化，输出指向中间的无效动作；扩散策略将两种模式建模为数据分布的两个峰值，采样时以概率落入任一模式。从数学上看，扩散模型通过分数函数 $∇Alog⁡P(A∣c)\nabla_{A} \log P(A \mid c)$ 同时捕获所有模式，而回归模型仅输出条件期望 $E[A∣c]\mathbb{E}[A \mid c]$ ，必然导致模式坍缩。citeweb_search:5#2web_search:5#11

9.4 DDIM 加速与动作块采样

推理时采用 DDIM 采样器，仅需 10–16 步去噪即可生成高质量动作块。设当前估计为 $A^k$ ，DDIM 更新规则为

$Ak−1=αˉk−1A^0+1−αˉk−1−σk2⋅ϵθ(Ak,k,c),A^{k-1} = \sqrt{\bar{\alpha}_{k-1}} \hat{A}^0 + \sqrt{1 - \bar{\alpha}_{k-1} - \sigma_k^2} \cdot \epsilon_\theta(A^k, k, c),$

其中 $A^0=(Ak−1−αˉkϵθ)/αˉk\hat{A}^0 = (A^k - \sqrt{1-\bar{\alpha}_k} \epsilon_\theta) / \sqrt{\bar{\alpha}_k}$ 为预测的干净动作块， $σk\sigma_k$ 控制随机性。在机器人控制中通常设 $σk=0\sigma_k = 0$ 以获得确定性轨迹，保证执行可重复性。citeweb_search:5#0web_search:5#4

十、VLA 范式对比与统一视角

维度	OpenVLA（自回归）	OpenVLA-OFT（并行回归）	π₀（流匹配）	Diffusion Policy（去噪扩散）
动作表示	离散 256-bin token	连续向量	连续向量	连续向量
分块解码	自回归串行	双向注意力并行	流匹配 ODE 并行	DDIM 迭代并行
训练目标	交叉熵	L1 回归	速度场 MSE	噪声预测 MSE
多模态支持	弱（softmax 平均）	弱（回归平均）	中（流形插值）	强（分布采样）
推理延迟	$\cdot d_a)$	$O (1)$	$O (1)$ （10 步 ODE）	$O (1)$ （10–50 步 DDIM）

从统一视角看，四种方法均建模条件联合概率 $P(At∣ot,l)P(A_t \mid o_t, l)$ ，差异在于对动作空间的参数化方式：OpenVLA 采用离散自回归，OFT 改为连续并行回归，π₀ 引入流匹配 ODE，Diffusion Policy 则使用随机微分方程（SDE）去噪。流匹配可视为扩散模型的一种确定性变体（概率流 ODE），二者在理论上通过得分函数相互联系。citeweb_search:5#0web_search:5#3web_search:5#11

十一、总结

VLA 端到端模型通过联合概率 $P(At∣ot,l)P(A_t \mid o_t, l)$ 将视觉感知、语言理解与电机控制统一为条件生成问题。动作分块以时序联合预测替代单步马尔可夫决策，将推理复杂度从 $O (K)$ 降至 $O (1)$ ，并通过并行解码或流匹配 ODE 实现实时控制。扩散策略进一步以去噪过程刻画多模态动作分布，避免回归平均化导致的模式坍缩，其训练目标

$LDP=E[∥ϵ−ϵθ(Ak,k,c)∥2]\mathcal{L}_{\text{DP}} = \mathbb{E}\left[ \left\| \epsilon - \epsilon_\theta(A^k, k, c) \right\|^2 \right]$

与流匹配目标

$LFM=E[∥vθ−(x1−x0)∥2]\mathcal{L}_{\text{FM}} = \mathbb{E}\left[ \left\| v_\theta - (x_1 - x_0) \right\|^2 \right]$

共同构成了现代 VLA 动作生成的数学基础：前者通过噪声空间建模分布，后者通过速度场直接回归轨迹，二者在概率流 ODE 框架下实现统一。citeweb_search:5#0web_search:5#3web_search:5#4

参考文献

Black, K., et al. (2024). π₀: A vision-language-action flow model for general robot control. Physical Intelligence. citeweb_search:4#1
Kim, B., et al. (2024). OpenVLA: An open-source vision-language-action model. arXiv:2406.09246. citeweb_search:5#6
Kim, B., et al. (2025). OpenVLA-OFT: Optimized fine-tuning for vision-language-action models. arXiv:2502.19645. citeweb_search:5#0
Chi, C., et al. (2023). Diffusion policy: Visuomotor policy learning via action diffusion. RSS 2023. citeweb_search:5#2web_search:5#4
Zhao, T., et al. (2023). Learning fine-grained bimanual manipulation with low-cost hardware. RSS 2023. citeweb_search:5#7