视觉-语言-行动(VLA)端到端模型
从视觉感知到电机控制的联合概率建模,推导动作分块(Action Chunking)与扩散策略(Diffusion Policy)
一、核心概念与知识图谱
VLA 模型将视觉感知、语言理解与电机控制统一为端到端的联合概率推理问题。其本质是将机器人控制视为条件生成任务:给定视觉观测 oto_tot 与自然语言指令 lll,模型输出未来 HHH 步的动作块 At=[at,at+1,…,at+H−1]A_t = [a_t, a_{t+1}, \dots, a_{t+H-1}]At=[at,at+1,…,at+H−1]。动作分块打破传统马尔可夫假设,直接建模时序动作的联合分布;扩散策略则通过去噪过程刻画多模态动作分布,避免回归平均化导致的模式坍缩。
二、总体结构图
VLA 的顶层架构遵循"感知-认知-执行"三段式。视觉编码器将多视角图像映射为语义-空间融合特征;语言指令经分词后嵌入同一隐空间;动作专家(Action Expert)接收视觉-语言联合表征,通过动作分块或扩散 head 输出未来时序的动作轨迹。
三、动作分块模块设计
动作分块(Action Chunking)是 VLA 将单步预测扩展为时序联合预测的关键机制。传统策略每步仅预测 ata_tat,导致复合误差累积;动作分块直接输出 At=[at,…,at+H−1]A_t = [a_t, \dots, a_{t+H-1}]At=[at,…,at+H−1],使模型在单次前向中规划完整局部轨迹。
四、扩散策略模块设计
扩散策略将动作生成视为条件去噪过程。不同于回归 head 输出确定性动作,扩散 head 学习从噪声中恢复动作块,天然支持多模态动作分布——同一观测下"向左取杯"与"向右取杯"可被同时建模为分布的两个峰值。
五、模块协同与闭环数据流
VLA 的推理闭环遵循"观测-规划-执行-更新"循环。视觉编码器与语言模型输出的 KV 缓存被动作专家复用;动作块经机器人执行后产生新观测,重新进入模型输入。该闭环中,动作分块显著降低了推理频率需求:模型每 HHH 步执行一次前向,而非每步一次。
六、接口对接与信号流向
VLA 系统的对外接口包括:视觉输入(多视角 RGB 或点云)、语言指令(自然语言字符串)、本体感知(关节角/末端位姿,可选)。内部信号流中,视觉 token 与语言 token 经投影后拼接为统一序列;动作专家输出连续值或离散 token;控制接口将动作块解析为电机指令序列。
七、三层架构总览
物理层部署于 GPU 集群或边缘计算节点,承载视觉编码器与大语言模型的前向计算;信号层处理三类数据流:视觉 token 流、语言 token 流、动作轨迹流;应用层面向具体机器人平台(单臂/双臂/人形),通过动作块解析器将抽象动作映射为平台特定的电机控制指令。
八、联合概率建模与动作分块推导
8.1 从感知到控制的联合分布
设时刻 ttt 的视觉观测为 oto_tot(可由多视角图像经视觉编码器提取的 token 序列表示),语言指令为 lll,未来 HHH 步的动作块为 At=[at,at+1,…,at+H−1]A_t = [a_t, a_{t+1}, \dots, a_{t+H-1}]At=[at,at+1,…,at+H−1],其中每个动作 at+i∈Rdaa_{t+i} \in \mathbb{R}^{d_a}at+i∈Rda 通常包含末端执行器的三维平移、三维旋转与夹爪开度(共 7 维)。VLA 的核心任务是建模条件联合概率
P(At∣ot,l).P(A_t \mid o_t, l).P(At∣ot,l).
传统逐步策略采用自回归分解 P(at∣ot,l)P(a_t \mid o_t, l)P(at∣ot,l),每步独立预测,忽略了动作间的时序相关性,导致复合误差随步数指数增长。动作分块通过直接建模联合分布,将 HHH 步动作作为整体输出,从根本上抑制误差累积。citeweb_search:5#0web_search:5#3
8.2 OpenVLA 的离散化分块
OpenVLA 将连续动作空间映射到语言模型的离散词汇表。对每一维动作标量,基于训练数据的第 1 至第 99 百分位区间进行均匀分桶,得到 256 个离散 bin。7 维动作对应 7 个离散 token,KKK 步动作分块则产生 L=K×7L = K \times 7L=K×7 个动作 token。citeweb_search:5#6web_search:5#12
原始 OpenVLA 采用因果注意力自回归生成这些 token,导致生成长度为 LLL 的块需要 LLL 次串行前向。OpenVLA-OFT 改进为并行解码:将空动作嵌入(以位置编码区分时序)输入解码器,改用双向注意力,使模型在单次前向中并行输出全部 LLL 个 token。此时推理延迟从 O(K⋅da)O(K \cdot d_a)O(K⋅da) 降至 O(1)O(1)O(1),实现约 KKK 倍的吞吐提升。citeweb_search:5#0
设视觉-语言联合表征为 hvl=Encoder(ot,l)h_{vl} = \text{Encoder}(o_t, l)hvl=Encoder(ot,l),并行解码的动作分块可形式化为
At=MLPhead(Transformerbidir(hvl,Epos)),A_t = \text{MLP}_{\text{head}}\big(\text{Transformer}_{\text{bidir}}(h_{vl}, E_{\text{pos}})\big),At=MLPhead(Transformerbidir(hvl,Epos)),
其中 EposE_{\text{pos}}Epos 为动作位置的嵌入矩阵,MLP head 将每层隐藏状态映射到连续动作值(OpenVLA-OFT 的 L1 回归方案)或离散 logits(原始 OpenVLA)。citeweb_search:5#0
8.3 π₀ 的流匹配分块
π₀ 采用流匹配(Flow Matching)而非离散 token 化来生成连续动作块。其动作专家接收 VLM 输出的 KV 缓存作为条件,通过常微分方程(ODE)生成动作轨迹。设动作块为 x∈RH×dax \in \mathbb{R}^{H \times d_a}x∈RH×da,流匹配定义速度场 vt(x)v_t(x)vt(x) 满足
dxdt=vt(x),x0∼N(0,I),x1∼P(At∣ot,l).\frac{dx}{dt} = v_t(x), \quad x_0 \sim \mathcal{N}(0, I), \quad x_1 \sim P(A_t \mid o_t, l).dtdx=vt(x),x0∼N(0,I),x1∼P(At∣ot,l).
训练目标为回归条件速度场:
LFM=Et,x0,x1[∥vθ(xt,t,c)−(x1−x0)∥2],\mathcal{L}_{\text{FM}} = \mathbb{E}_{t, x_0, x_1} \left[ \left\| v_\theta(x_t, t, c) - (x_1 - x_0) \right\|^2 \right],LFM=Et,x0,x1[∥vθ(xt,t,c)−(x1−x0)∥2],
其中 ccc 为视觉-语言条件,xt=(1−t)x0+tx1x_t = (1-t)x_0 + t x_1xt=(1−t)x0+tx1 为线性插值。推理时通过 10 步 ODE 求解即可从噪声生成平滑动作块,天然支持高频控制(50 Hz)下的长时序规划。citeweb_search:4#1web_search:5#3
8.4 动作分块的期望增益
设单步前向延迟为 τ\tauτ,控制周期为 Δt\Delta tΔt。无分块时,模型需在每步控制周期内完成一次前向,最大控制频率为 fmax=1/τf_{\max} = 1/\taufmax=1/τ。采用 KKK 步分块后,模型每 KΔtK \Delta tKΔt 执行一次前向,等效控制频率提升为
feff=Kτ=K⋅fmax.f_{\text{eff}} = \frac{K}{\tau} = K \cdot f_{\max}.feff=τK=K⋅fmax.
实际部署中,π₀ 使用 K=50K=50K=50 的分块在 50 Hz 控制率下实现 1 秒前瞻规划,推理延迟仅 73 ms,远小于分块执行周期 1000 ms,从而支持实时异步执行策略。citeweb_search:5#3
九、扩散策略推导
9.1 条件去噪扩散框架
Diffusion Policy(Chi et al., RSS 2023)将动作块生成建模为条件去噪扩散过程。设动作块 A0A^0A0 为去噪目标,前向过程在第 kkk 步施加高斯噪声:
q(Ak∣A0)=N(Ak;αˉkA0,(1−αˉk)I),q(A^k \mid A^0) = \mathcal{N}\left(A^k; \sqrt{\bar{\alpha}_k} A^0, (1 - \bar{\alpha}_k) I\right),q(Ak∣A0)=N(Ak;αˉkA0,(1−αˉk)I),
其中 αˉk=∏i=1k(1−βi)\bar{\alpha}_k = \prod_{i=1}^k (1 - \beta_i)αˉk=∏i=1k(1−βi) 为累积噪声系数,βi\beta_iβi 为预设的噪声调度。citeweb_search:5#2web_search:5#4
9.2 噪声预测与训练目标
反向过程学习条件噪声预测网络 ϵθ\epsilon_\thetaϵθ,其输入为带噪动作块 AkA^kAk、噪声步 kkk、以及视觉-语言条件 ccc。训练采用简化的均方误差损失:
LDP=Ek∼U(1,K),A0,ϵ∼N(0,I)[∥ϵ−ϵθ(αˉkA0+1−αˉkϵ,k,c)∥2].\mathcal{L}_{\text{DP}} = \mathbb{E}_{k \sim \mathcal{U}(1,K), A^0, \epsilon \sim \mathcal{N}(0,I)} \left[ \left\| \epsilon - \epsilon_\theta\left(\sqrt{\bar{\alpha}_k} A^0 + \sqrt{1-\bar{\alpha}_k} \epsilon, k, c\right) \right\|^2 \right].LDP=Ek∼U(1,K),A0,ϵ∼N(0,I)[ϵ−ϵθ(αˉkA0+1−αˉkϵ,k,c)2].
该目标等价于得分匹配,使网络学会从噪声中恢复干净动作块。citeweb_search:5#4web_search:5#7
9.3 多模态分布的自然表达
扩散策略的核心优势在于对多模态动作分布的原生支持。传统 MSE 行为克隆将"向左取杯"与"向右取杯"两种正确策略平均化,输出指向中间的无效动作;扩散策略将两种模式建模为数据分布的两个峰值,采样时以概率落入任一模式。从数学上看,扩散模型通过分数函数 ∇AlogP(A∣c)\nabla_{A} \log P(A \mid c)∇AlogP(A∣c) 同时捕获所有模式,而回归模型仅输出条件期望 E[A∣c]\mathbb{E}[A \mid c]E[A∣c],必然导致模式坍缩。citeweb_search:5#2web_search:5#11
9.4 DDIM 加速与动作块采样
推理时采用 DDIM 采样器,仅需 10–16 步去噪即可生成高质量动作块。设当前估计为 AkA^kAk,DDIM 更新规则为
Ak−1=αˉk−1A^0+1−αˉk−1−σk2⋅ϵθ(Ak,k,c),A^{k-1} = \sqrt{\bar{\alpha}_{k-1}} \hat{A}^0 + \sqrt{1 - \bar{\alpha}_{k-1} - \sigma_k^2} \cdot \epsilon_\theta(A^k, k, c),Ak−1=αˉk−1A^0+1−αˉk−1−σk2⋅ϵθ(Ak,k,c),
其中 A^0=(Ak−1−αˉkϵθ)/αˉk\hat{A}^0 = (A^k - \sqrt{1-\bar{\alpha}_k} \epsilon_\theta) / \sqrt{\bar{\alpha}_k}A^0=(Ak−1−αˉkϵθ)/αˉk 为预测的干净动作块,σk\sigma_kσk 控制随机性。在机器人控制中通常设 σk=0\sigma_k = 0σk=0 以获得确定性轨迹,保证执行可重复性。citeweb_search:5#0web_search:5#4
十、VLA 范式对比与统一视角
| 维度 | OpenVLA(自回归) | OpenVLA-OFT(并行回归) | π₀(流匹配) | Diffusion Policy(去噪扩散) |
|---|---|---|---|---|
| 动作表示 | 离散 256-bin token | 连续向量 | 连续向量 | 连续向量 |
| 分块解码 | 自回归串行 | 双向注意力并行 | 流匹配 ODE 并行 | DDIM 迭代并行 |
| 训练目标 | 交叉熵 | L1 回归 | 速度场 MSE | 噪声预测 MSE |
| 多模态支持 | 弱(softmax 平均) | 弱(回归平均) | 中(流形插值) | 强(分布采样) |
| 推理延迟 | O(K⋅da)O(K \cdot d_a)O(K⋅da) | O(1)O(1)O(1) | O(1)O(1)O(1)(10 步 ODE) | O(1)O(1)O(1)(10–50 步 DDIM) |
从统一视角看,四种方法均建模条件联合概率 P(At∣ot,l)P(A_t \mid o_t, l)P(At∣ot,l),差异在于对动作空间的参数化方式:OpenVLA 采用离散自回归,OFT 改为连续并行回归,π₀ 引入流匹配 ODE,Diffusion Policy 则使用随机微分方程(SDE)去噪。流匹配可视为扩散模型的一种确定性变体(概率流 ODE),二者在理论上通过得分函数相互联系。citeweb_search:5#0web_search:5#3web_search:5#11
十一、总结
VLA 端到端模型通过联合概率 P(At∣ot,l)P(A_t \mid o_t, l)P(At∣ot,l) 将视觉感知、语言理解与电机控制统一为条件生成问题。动作分块以时序联合预测替代单步马尔可夫决策,将推理复杂度从 O(K)O(K)O(K) 降至 O(1)O(1)O(1),并通过并行解码或流匹配 ODE 实现实时控制。扩散策略进一步以去噪过程刻画多模态动作分布,避免回归平均化导致的模式坍缩,其训练目标
LDP=E[∥ϵ−ϵθ(Ak,k,c)∥2]\mathcal{L}_{\text{DP}} = \mathbb{E}\left[ \left\| \epsilon - \epsilon_\theta(A^k, k, c) \right\|^2 \right]LDP=E[ϵ−ϵθ(Ak,k,c)2]
与流匹配目标
LFM=E[∥vθ−(x1−x0)∥2]\mathcal{L}_{\text{FM}} = \mathbb{E}\left[ \left\| v_\theta - (x_1 - x_0) \right\|^2 \right]LFM=E[∥vθ−(x1−x0)∥2]
共同构成了现代 VLA 动作生成的数学基础:前者通过噪声空间建模分布,后者通过速度场直接回归轨迹,二者在概率流 ODE 框架下实现统一。citeweb_search:5#0web_search:5#3web_search:5#4
参考文献
- Black, K., et al. (2024). π₀: A vision-language-action flow model for general robot control. Physical Intelligence. citeweb_search:4#1
- Kim, B., et al. (2024). OpenVLA: An open-source vision-language-action model. arXiv:2406.09246. citeweb_search:5#6
- Kim, B., et al. (2025). OpenVLA-OFT: Optimized fine-tuning for vision-language-action models. arXiv:2502.19645. citeweb_search:5#0
- Chi, C., et al. (2023). Diffusion policy: Visuomotor policy learning via action diffusion. RSS 2023. citeweb_search:5#2web_search:5#4
- Zhao, T., et al. (2023). Learning fine-grained bimanual manipulation with low-cost hardware. RSS 2023. citeweb_search:5#7
端到端模型&spm=1001.2101.3001.5002&articleId=161400408&d=1&t=3&u=11e28ad972fd4bc59326dd60a900fd24)
1528

被折叠的 条评论
为什么被折叠?



