具身智能:原理、算法与系统 第18章 模仿学习与人类示范

目录

第18章 模仿学习与人类示范

18.1 行为克隆

18.1.1 监督学习视角

18.1.2 数据集聚合(DAgger)

18.1.3 交互式模仿学习

18.1.4 行为克隆的局限与改进

18.2 逆强化学习

18.2.1 奖励函数学习

18.2.2 最大熵 IRL

18.2.3 生成对抗模仿学习(GAIL)

18.2.4 对抗性 IRL 的扩展

18.3 从观察学习

18.3.1 第三人称模仿学习

18.3.2 对应问题与领域自适应

18.3.3 无配对模仿学习

18.3.4 跨具身迁移

18.4 示范数据获取

18.4.1 遥操作与数据收集

18.4.2 动捕系统与穿戴设备

18.4.3 低成本遥操作:Mobile ALOHA

18.4.4 众包与共享自主


第18章 模仿学习与人类示范

模仿学习(Imitation Learning, IL)作为具身智能系统的核心技术范式,通过从专家示范中直接提取行为策略,避免了传统强化学习中对奖励函数手工设计的依赖。与基于试错机制的强化学习不同,模仿学习假设存在能够提供高质量轨迹示范的专家策略,学习者的目标是在不直接访问专家内部决策机制的情况下,复现或泛化专家的行为模式。本章系统阐述模仿学习的理论框架、算法演进与工程实践,涵盖从经典的行为克隆到现代的对抗式模仿学习,以及从同构示范到跨具身迁移的完整技术谱系。

18.1 行为克隆

行为克隆(Behavioral Cloning, BC)将策略学习形式化为监督学习问题,通过建立从环境状态到执行动作的映射函数来逼近专家策略。给定专家轨迹数据集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

VectorShift

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值