HiMem-WAM：用于机器人操作的分层记忆门控世界动作模型

原创于 2026-07-02 00:15:00 发布 · 110 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

大模型

智能体

计算机视觉

26年6月来自港大、INFIFORCE公司、华中科技、清华、武大和南方科技的论文“HiMem-WAM: Hierarchical Memory-Gated World Action Models for Robotic Manipulation”。

世界动作模型（World Action Models, WAMs）已成为具身智能领域一种强有力的新范式，通过学习与动作相关的视觉动力学，显著提升了模型的泛化能力与鲁棒性。然而，现有的 WAM 在处理长时程机器人操作任务时，仍难以有效利用任务相关的记忆信息。为此，提出 HiMem-WAM——一种分层记忆门控 WAM，它整合了以动作为中心的潜动作（latent actions）、高层技能潜表征（high-level skill latents）以及由边界触发的记忆更新机制。具体而言，构建一个分层潜动作框架，联合学习低层动作与高层技能潜表征，从而实现结构化的时间抽象。同时，该模型采用一种边界感知记忆门控机制，在预测的技能转换点记录紧凑的任务状态，从而支持因果推理，且无需在测试阶段生成未来视频或进行光流估计。在 LIBERO、LIBERO-PLUS、RMBench 及真实世界任务中的评估结果表明：分层潜表征提升模型在部署扰动下的鲁棒性，而记忆模块则显著增强模型处理依赖记忆的长时程操作任务的能力。

如图 1 所示HiMem-WAM 框架。其包含三个阶段：第一阶段从演示数据中提取低级动作 Token 和高级技能潜表征；第二阶段学习根据视频和语言输入预测潜动作；第三阶段引入门控记忆模块，以实现具备历史感知能力的动作预测。下方图示展示在真实世界和仿真环境中的评估结果。

请添加图片描述

在其策略的分解方式中，区分三个角色：选择当前技能、将技能展开为短时程运动，以及将该运动转化为针对具体具身的控制指令。未来的视觉动态仅用于训练监督，因此推理过程保持因果性，无需进行视频生成或光流估计。

长时程操作往往依赖于当前不可见的观测信息。因此，HiMem-WAM 采用一种门控记忆适配器，用于存储紧凑的技能级事件。
在训练流程中，训练分为三个阶段进行。

阶段 I：潜动作token化器（Latent Action Tokenizer）。
阶段 II：分层潜动作预训练。冻结token化器，发现技能潜表示（skill latents），并在不使用外部记忆的情况下预训练规划器和执行器。阶段 II 的目标函数结合针对预测技能及潜动作块（latent action chunk）的均方误差（MSE）损失，以及针对边界预测的二元交叉熵（BCE）损失。
阶段 III：基于记忆门控模块的微调。启用记忆功能，并利用带有动作标签的演示数据对完整策略进行微调。

在测试阶段，HiMem-WAM 仅依赖当前的 RGB 观测、本体感知、指令及记忆库。它读取记忆，预测高层潜动作，将其展开为低层潜动作块，并将该片段解码为可执行动作；仅当门控 α^w_t > η 时，才会写入新的记忆标记（memory token）。该过程完全遵循因果性（causal），并保留了机器人策略所采用的标准动作分块（action-chunking）接口。

如图 2 所示从 WAM 到 HiMem-WAM。HiMem-WAM 引入记忆专家（memory expert）扩展了统一世界动作建模（unified world action modeling），从而能够基于当前观测和任务历史进行动作预测。

请添加图片描述