HiMem-WAM:用于机器人操作的分层记忆门控世界动作模型

26年6月来自港大、INFIFORCE公司、华中科技、清华、武大和南方科技的论文“HiMem-WAM: Hierarchical Memory-Gated World Action Models for Robotic Manipulation”。

世界动作模型(World Action Models, WAMs)已成为具身智能领域一种强有力的新范式,通过学习与动作相关的视觉动力学,显著提升了模型的泛化能力与鲁棒性。然而,现有的 WAM 在处理长时程机器人操作任务时,仍难以有效利用任务相关的记忆信息。为此,提出 HiMem-WAM——一种分层记忆门控 WAM,它整合了以动作为中心的潜动作(latent actions)、高层技能潜表征(high-level skill latents)以及由边界触发的记忆更新机制。具体而言,构建一个分层潜动作框架,联合学习低层动作与高层技能潜表征,从而实现结构化的时间抽象。同时,该模型采用一种边界感知记忆门控机制,在预测的技能转换点记录紧凑的任务状态,从而支持因果推理,且无需在测试阶段生成未来视频或进行光流估计。在 LIBERO、LIBERO-PLUS、RMBench 及真实世界任务中的评估结果表明:分层潜表征提升模型在部署扰动下的鲁棒性,而记忆模块则显著增强模型处理依赖记忆的长时程操作任务的能力。


如图 1 所示HiMem-WAM 框架。其包含三个阶段:第一阶段从演示数据中提取低级动作 Token 和高级技能潜表征;第二阶段学习根据视频和语言输入预测潜动作;第三阶段引入门控记忆模块,以实现具备历史感知能力的动作预测。下方图示展示在真实世界和仿真环境中的评估结果。

请添加图片描述

在其策略的分解方式中,区分三个角色:选择当前技能、将技能展开为短时程运动,以及将该运动转化为针对具体具身的控制指令。未来的视觉动态仅用于训练监督,因此推理过程保持因果性,无需进行视频生成或光流估计。

长时程操作往往依赖于当前不可见的观测信息。因此,HiMem-WAM 采用一种门控记忆适配器,用于存储紧凑的技能级事件。
在训练流程中,训练分为三个阶段进行。

阶段 I:潜动作token化器(Latent Action Tokenizer)。
阶段 II:分层潜动作预训练。冻结token化器,发现技能潜表示(skill latents),并在不使用外部记忆的情况下预训练规划器和执行器。阶段 II 的目标函数结合针对预测技能及潜动作块(latent action chunk)的均方误差(MSE)损失,以及针对边界预测的二元交叉熵(BCE)损失。
阶段 III:基于记忆门控模块的微调。启用记忆功能,并利用带有动作标签的演示数据对完整策略进行微调。

在测试阶段,HiMem-WAM 仅依赖当前的 RGB 观测、本体感知、指令及记忆库。它读取记忆,预测高层潜动作,将其展开为低层潜动作块,并将该片段解码为可执行动作;仅当门控 α^w_t > η 时,才会写入新的记忆标记(memory token)。该过程完全遵循因果性(causal),并保留了机器人策略所采用的标准动作分块(action-chunking)接口。

如图 2 所示从 WAM 到 HiMem-WAM。HiMem-WAM 引入记忆专家(memory expert)扩展了统一世界动作建模(unified world action modeling),从而能够基于当前观测和任务历史进行动作预测。

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值