【多模态基础模型与具身智能】13 视觉-语言-行动(VLA)端到端模型

视觉-语言-行动(VLA)端到端模型

从视觉感知到电机控制的联合概率建模,推导动作分块(Action Chunking)与扩散策略(Diffusion Policy)


一、核心概念与知识图谱

VLA 模型将视觉感知、语言理解与电机控制统一为端到端的联合概率推理问题。其本质是将机器人控制视为条件生成任务:给定视觉观测 oto_tot 与自然语言指令 lll,模型输出未来 HHH 步的动作块 At=[at,at+1,…,at+H−1]A_t = [a_t, a_{t+1}, \dots, a_{t+H-1}]At=[at,at+1,,at+H1]。动作分块打破传统马尔可夫假设,直接建模时序动作的联合分布;扩散策略则通过去噪过程刻画多模态动作分布,避免回归平均化导致的模式坍缩。

VLA端到端

视觉编码

语言理解

动作生成

SigLIP

DINOv2

指令嵌入

动作分块

扩散策略

时序联合

去噪生成

电机控制


二、总体结构图

VLA 的顶层架构遵循"感知-认知-执行"三段式。视觉编码器将多视角图像映射为语义-空间融合特征;语言指令经分词后嵌入同一隐空间;动作专家(Action Expert)接收视觉-语言联合表征,通过动作分块或扩散 head 输出未来时序的动作轨迹。

多视角图像

视觉编码器

语言指令

文本分词

特征投影

动作专家

动作分块

扩散头

连续轨迹


三、动作分块模块设计

动作分块(Action Chunking)是 VLA 将单步预测扩展为时序联合预测的关键机制。传统策略每步仅预测 ata_tat,导致复合误差累积;动作分块直接输出 At=[at,…,at+H−1]A_t = [a_t, \dots, a_{t+H-1}]At=[at,,at+H1],使模型在单次前向中规划完整局部轨迹。

联合表征

空动作嵌入

双向注意力

并行解码

时序动作头

平移维度

旋转维度

夹爪维度

动作块输出


四、扩散策略模块设计

扩散策略将动作生成视为条件去噪过程。不同于回归 head 输出确定性动作,扩散 head 学习从噪声中恢复动作块,天然支持多模态动作分布——同一观测下"向左取杯"与"向右取杯"可被同时建模为分布的两个峰值。

高斯噪声

条件编码

噪声预测网

逐步去噪

动作块采样

视觉语言条件


五、模块协同与闭环数据流

VLA 的推理闭环遵循"观测-规划-执行-更新"循环。视觉编码器与语言模型输出的 KV 缓存被动作专家复用;动作块经机器人执行后产生新观测,重新进入模型输入。该闭环中,动作分块显著降低了推理频率需求:模型每 HHH 步执行一次前向,而非每步一次。

环境观测

视觉编码

语言指令

动作专家

动作块输出

机器人执行

新观测生成

KV缓存复用


六、接口对接与信号流向

VLA 系统的对外接口包括:视觉输入(多视角 RGB 或点云)、语言指令(自然语言字符串)、本体感知(关节角/末端位姿,可选)。内部信号流中,视觉 token 与语言 token 经投影后拼接为统一序列;动作专家输出连续值或离散 token;控制接口将动作块解析为电机指令序列。

RGB图像

视觉投影

指令文本

文本嵌入

本体状态

状态投影

统一序列

动作专家

动作块

电机指令


七、三层架构总览

物理层部署于 GPU 集群或边缘计算节点,承载视觉编码器与大语言模型的前向计算;信号层处理三类数据流:视觉 token 流、语言 token 流、动作轨迹流;应用层面向具体机器人平台(单臂/双臂/人形),通过动作块解析器将抽象动作映射为平台特定的电机控制指令。

物理层

GPU集群

边缘节点

信号层

视觉流

语言流

动作流

应用层

单臂操作

双臂协作

人形控制


八、联合概率建模与动作分块推导

8.1 从感知到控制的联合分布

设时刻 ttt 的视觉观测为 oto_tot(可由多视角图像经视觉编码器提取的 token 序列表示),语言指令为 lll,未来 HHH 步的动作块为 At=[at,at+1,…,at+H−1]A_t = [a_t, a_{t+1}, \dots, a_{t+H-1}]At=[at,at+1,,at+H1],其中每个动作 at+i∈Rdaa_{t+i} \in \mathbb{R}^{d_a}at+iRda 通常包含末端执行器的三维平移、三维旋转与夹爪开度(共 7 维)。VLA 的核心任务是建模条件联合概率

P(At∣ot,l).P(A_t \mid o_t, l).P(Atot,l).

传统逐步策略采用自回归分解 P(at∣ot,l)P(a_t \mid o_t, l)P(atot,l),每步独立预测,忽略了动作间的时序相关性,导致复合误差随步数指数增长。动作分块通过直接建模联合分布,将 HHH 步动作作为整体输出,从根本上抑制误差累积。citeweb_search:5#0web_search:5#3

8.2 OpenVLA 的离散化分块

OpenVLA 将连续动作空间映射到语言模型的离散词汇表。对每一维动作标量,基于训练数据的第 1 至第 99 百分位区间进行均匀分桶,得到 256 个离散 bin。7 维动作对应 7 个离散 token,KKK 步动作分块则产生 L=K×7L = K \times 7L=K×7 个动作 token。citeweb_search:5#6web_search:5#12

原始 OpenVLA 采用因果注意力自回归生成这些 token,导致生成长度为 LLL 的块需要 LLL 次串行前向。OpenVLA-OFT 改进为并行解码:将空动作嵌入(以位置编码区分时序)输入解码器,改用双向注意力,使模型在单次前向中并行输出全部 LLL 个 token。此时推理延迟从 O(K⋅da)O(K \cdot d_a)O(Kda) 降至 O(1)O(1)O(1),实现约 KKK 倍的吞吐提升。citeweb_search:5#0

设视觉-语言联合表征为 hvl=Encoder(ot,l)h_{vl} = \text{Encoder}(o_t, l)hvl=Encoder(ot,l),并行解码的动作分块可形式化为

At=MLPhead(Transformerbidir(hvl,Epos)),A_t = \text{MLP}_{\text{head}}\big(\text{Transformer}_{\text{bidir}}(h_{vl}, E_{\text{pos}})\big),At=MLPhead(Transformerbidir(hvl,Epos)),

其中 EposE_{\text{pos}}Epos 为动作位置的嵌入矩阵,MLP head 将每层隐藏状态映射到连续动作值(OpenVLA-OFT 的 L1 回归方案)或离散 logits(原始 OpenVLA)。citeweb_search:5#0

8.3 π₀ 的流匹配分块

π₀ 采用流匹配(Flow Matching)而非离散 token 化来生成连续动作块。其动作专家接收 VLM 输出的 KV 缓存作为条件,通过常微分方程(ODE)生成动作轨迹。设动作块为 x∈RH×dax \in \mathbb{R}^{H \times d_a}xRH×da,流匹配定义速度场 vt(x)v_t(x)vt(x) 满足

dxdt=vt(x),x0∼N(0,I),x1∼P(At∣ot,l).\frac{dx}{dt} = v_t(x), \quad x_0 \sim \mathcal{N}(0, I), \quad x_1 \sim P(A_t \mid o_t, l).dtdx=vt(x),x0N(0,I),x1P(Atot,l).

训练目标为回归条件速度场:

LFM=Et,x0,x1[∥vθ(xt,t,c)−(x1−x0)∥2],\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_0, x_1} \left[ \left\| v_\theta(x_t, t, c) - (x_1 - x_0) \right\|^2 \right],LFM=Et,x0,x1[vθ(xt,t,c)(x1x0)2],

其中 ccc 为视觉-语言条件,xt=(1−t)x0+tx1x_t = (1-t)x_0 + t x_1xt=(1t)x0+tx1 为线性插值。推理时通过 10 步 ODE 求解即可从噪声生成平滑动作块,天然支持高频控制(50 Hz)下的长时序规划。citeweb_search:4#1web_search:5#3

8.4 动作分块的期望增益

设单步前向延迟为 τ\tauτ,控制周期为 Δt\Delta tΔt。无分块时,模型需在每步控制周期内完成一次前向,最大控制频率为 fmax⁡=1/τf_{\max} = 1/\taufmax=1/τ。采用 KKK 步分块后,模型每 KΔtK \Delta tKΔt 执行一次前向,等效控制频率提升为

feff=Kτ=K⋅fmax⁡.f_{\text{eff}} = \frac{K}{\tau} = K \cdot f_{\max}.feff=τK=Kfmax.

实际部署中,π₀ 使用 K=50K=50K=50 的分块在 50 Hz 控制率下实现 1 秒前瞻规划,推理延迟仅 73 ms,远小于分块执行周期 1000 ms,从而支持实时异步执行策略。citeweb_search:5#3


九、扩散策略推导

9.1 条件去噪扩散框架

Diffusion Policy(Chi et al., RSS 2023)将动作块生成建模为条件去噪扩散过程。设动作块 A0A^0A0 为去噪目标,前向过程在第 kkk 步施加高斯噪声:

q(Ak∣A0)=N(Ak;αˉkA0,(1−αˉk)I),q(A^k \mid A^0) = \mathcal{N}\left(A^k; \sqrt{\bar{\alpha}_k} A^0, (1 - \bar{\alpha}_k) I\right),q(AkA0)=N(Ak;αˉkA0,(1αˉk)I),

其中 αˉk=∏i=1k(1−βi)\bar{\alpha}_k = \prod_{i=1}^k (1 - \beta_i)αˉk=i=1k(1βi) 为累积噪声系数,βi\beta_iβi 为预设的噪声调度。citeweb_search:5#2web_search:5#4

9.2 噪声预测与训练目标

反向过程学习条件噪声预测网络 ϵθ\epsilon_\thetaϵθ,其输入为带噪动作块 AkA^kAk、噪声步 kkk、以及视觉-语言条件 ccc。训练采用简化的均方误差损失:

LDP=Ek∼U(1,K),A0,ϵ∼N(0,I)[∥ϵ−ϵθ(αˉkA0+1−αˉkϵ,k,c)∥2].\mathcal{L}_{\text{DP}} = \mathbb{E}_{k \sim \mathcal{U}(1,K), A^0, \epsilon \sim \mathcal{N}(0,I)} \left[ \left\| \epsilon - \epsilon_\theta\left(\sqrt{\bar{\alpha}_k} A^0 + \sqrt{1-\bar{\alpha}_k} \epsilon, k, c\right) \right\|^2 \right].LDP=EkU(1,K),A0,ϵN(0,I)[ϵϵθ(αˉkA0+1αˉkϵ,k,c)2].

该目标等价于得分匹配,使网络学会从噪声中恢复干净动作块。citeweb_search:5#4web_search:5#7

9.3 多模态分布的自然表达

扩散策略的核心优势在于对多模态动作分布的原生支持。传统 MSE 行为克隆将"向左取杯"与"向右取杯"两种正确策略平均化,输出指向中间的无效动作;扩散策略将两种模式建模为数据分布的两个峰值,采样时以概率落入任一模式。从数学上看,扩散模型通过分数函数 ∇Alog⁡P(A∣c)\nabla_{A} \log P(A \mid c)AlogP(Ac) 同时捕获所有模式,而回归模型仅输出条件期望 E[A∣c]\mathbb{E}[A \mid c]E[Ac],必然导致模式坍缩。citeweb_search:5#2web_search:5#11

9.4 DDIM 加速与动作块采样

推理时采用 DDIM 采样器,仅需 10–16 步去噪即可生成高质量动作块。设当前估计为 AkA^kAk,DDIM 更新规则为

Ak−1=αˉk−1A^0+1−αˉk−1−σk2⋅ϵθ(Ak,k,c),A^{k-1} = \sqrt{\bar{\alpha}_{k-1}} \hat{A}^0 + \sqrt{1 - \bar{\alpha}_{k-1} - \sigma_k^2} \cdot \epsilon_\theta(A^k, k, c),Ak1=αˉk1A^0+1αˉk1σk2ϵθ(Ak,k,c),

其中 A^0=(Ak−1−αˉkϵθ)/αˉk\hat{A}^0 = (A^k - \sqrt{1-\bar{\alpha}_k} \epsilon_\theta) / \sqrt{\bar{\alpha}_k}A^0=(Ak1αˉkϵθ)/αˉk 为预测的干净动作块,σk\sigma_kσk 控制随机性。在机器人控制中通常设 σk=0\sigma_k = 0σk=0 以获得确定性轨迹,保证执行可重复性。citeweb_search:5#0web_search:5#4


十、VLA 范式对比与统一视角

维度OpenVLA(自回归)OpenVLA-OFT(并行回归)π₀(流匹配)Diffusion Policy(去噪扩散)
动作表示离散 256-bin token连续向量连续向量连续向量
分块解码自回归串行双向注意力并行流匹配 ODE 并行DDIM 迭代并行
训练目标交叉熵L1 回归速度场 MSE噪声预测 MSE
多模态支持弱(softmax 平均)弱(回归平均)中(流形插值)强(分布采样)
推理延迟O(K⋅da)O(K \cdot d_a)O(Kda)O(1)O(1)O(1)O(1)O(1)O(1)(10 步 ODE)O(1)O(1)O(1)(10–50 步 DDIM)

从统一视角看,四种方法均建模条件联合概率 P(At∣ot,l)P(A_t \mid o_t, l)P(Atot,l),差异在于对动作空间的参数化方式:OpenVLA 采用离散自回归,OFT 改为连续并行回归,π₀ 引入流匹配 ODE,Diffusion Policy 则使用随机微分方程(SDE)去噪。流匹配可视为扩散模型的一种确定性变体(概率流 ODE),二者在理论上通过得分函数相互联系。citeweb_search:5#0web_search:5#3web_search:5#11


十一、总结

VLA 端到端模型通过联合概率 P(At∣ot,l)P(A_t \mid o_t, l)P(Atot,l) 将视觉感知、语言理解与电机控制统一为条件生成问题。动作分块以时序联合预测替代单步马尔可夫决策,将推理复杂度从 O(K)O(K)O(K) 降至 O(1)O(1)O(1),并通过并行解码或流匹配 ODE 实现实时控制。扩散策略进一步以去噪过程刻画多模态动作分布,避免回归平均化导致的模式坍缩,其训练目标

LDP=E[∥ϵ−ϵθ(Ak,k,c)∥2]\mathcal{L}_{\text{DP}} = \mathbb{E}\left[ \left\| \epsilon - \epsilon_\theta(A^k, k, c) \right\|^2 \right]LDP=E[ϵϵθ(Ak,k,c)2]

与流匹配目标

LFM=E[∥vθ−(x1−x0)∥2]\mathcal{L}_{\text{FM}} = \mathbb{E}\left[ \left\| v_\theta - (x_1 - x_0) \right\|^2 \right]LFM=E[vθ(x1x0)2]

共同构成了现代 VLA 动作生成的数学基础:前者通过噪声空间建模分布,后者通过速度场直接回归轨迹,二者在概率流 ODE 框架下实现统一。citeweb_search:5#0web_search:5#3web_search:5#4


参考文献

  • Black, K., et al. (2024). π₀: A vision-language-action flow model for general robot control. Physical Intelligence. citeweb_search:4#1
  • Kim, B., et al. (2024). OpenVLA: An open-source vision-language-action model. arXiv:2406.09246. citeweb_search:5#6
  • Kim, B., et al. (2025). OpenVLA-OFT: Optimized fine-tuning for vision-language-action models. arXiv:2502.19645. citeweb_search:5#0
  • Chi, C., et al. (2023). Diffusion policy: Visuomotor policy learning via action diffusion. RSS 2023. citeweb_search:5#2web_search:5#4
  • Zhao, T., et al. (2023). Learning fine-grained bimanual manipulation with low-cost hardware. RSS 2023. citeweb_search:5#7
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

VectorShift

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值