Learning to See before Learning to Act: Visual Pre-training for Manipulation

文章探讨了如何利用迁移学习改进机器人操作任务的性能。研究发现,预训练的视觉模型(如ResNet-50FPN)的完整参数(包括backbone和head)可以有效初始化affordance模型,提高抓取和吸取任务的采样效率和泛化性。实验在仿真和真实环境中验证了这种方法优于仅迁移backbone或随机初始化。未来的研究方向是将视觉引导的探索应用于强化学习的操作模型训练中,以解决数据效率问题。

1.解决的问题

这篇文章采用迁移学习,将学习到的知识从一个被动的视觉任务(数据分布独立于智能体的决策)迁移到主动的机器人任务(数据分布依赖于智能体的决策)。

在视觉任务上预训练能显著提高学习操作物体时的泛化性和采样效率

迁移模型的哪部分能带来提升呢?

标准视觉模型的输出与操作任务中的affordance maps高度相关,直接从视觉网络迁移模型参数到affordance预测网络,使用少量经验训练微调affordance模型就可以达到更好的效果。

作者发现直接从ImageNet上预训练的模型迁移潜在特征表示不能加速推-抓任务的学习进程或收敛到更好的性能,这是由于迁移后的affordance模型的head部分参数是随机初始化的,仍然是随机探索环境,难以收集有用的监督信号。所以作者直接迁移整个视觉模型,包括backbone和head的参数,来初始化affordance模型。

2.方法介绍

输入表示

采用的输入表示是工作空间的RGB-D高度图,即先将RGB图像投影到三维点云,再正交反投影回重力方向。

视觉模型

遵循Faster R-CNN,使用ConvnNet设计视觉模型,模型输出是2D热力图。
损失函数采用二值交叉熵损失。

affordance模型

包含一个ConvNet和一个动作原语。

ConvNet预测密集的2D热力图,编码了每个像素抓取成功的可能性。

动作原语是一个控制机器人从固定初始位置执行操作任务的函数,是开环的,且通过IK解法执行运动规划。论文中介绍了吸取和抓取两种动作原语,输入参数分别为 ϕ ( p ) \phi(p) ϕ(p) ϕ ( p , θ ) \phi(p,\theta) ϕ(p,θ) ,其中 p = ( p x , p y , p z ) p=(p_x,p_y,p_z) p=(px,py,pz) 分别为吸取位置和平行抓取器中心点3D坐标, θ \theta θ 是围绕重力方向的旋转角度。通过将原始高度图旋转16个角度,送入模型估计每个高度图水平方向抓取的affordance。对所有高度图执行最大池化,以确定最佳抓取位置和方向。

由于学习affordance模型的数据来源于与真实环境交互,不满足独立同分布条件,因此作者采用经验池和优先经验回放的方式构造每次迭代的输入。
损失函数同样采用二值交叉熵损失。

在这里插入图片描述

迁移学习

视觉模型和affordance模型结构相同,视觉模型的backbone和head参数直接用来初始化affdance模型。

3.实验

论文实验从以下三方面进行验证:

  1. 迁移模型的一部分(backbone)而不是全部是否会提升模型性能
  2. benchmark不同视觉模型对操作模型的表现
  3. 确定那个大规模真实场景数据集对操作性能提升最明显

仿真实验

backbone采用7层全卷积残差网络

在仿真中训练了一个前景分割模型,使用它的权重来初始化一个抓取affordance模型,然后通过trial and error微调affordance模型。全部迁移比只迁移backbone性能要好。

在这里插入图片描述
在训练集上通过trail and error微调结果
平面检测(法向估计)提高了吸取动作的采样效率
前景分割和平面检测(法向估计)对于抓取更有帮助
在这里插入图片描述
在未知物体上的测试结果

在这里插入图片描述

真实场景实验

使用的是https://github.com/facebookresearch/detectron的RPN模型,backbone采用ReSNet-50 FPN,P2特征层的预测层作为head模型。

采用仿真实验中表现最好的任务训练视觉模型,和随机初始化的模型进行对比。

考察现成的模型能否作为一个好的初始化结果。现成的预训练模型有:ImageNet,COCO-backbone,COCO(backbone和head), COCO-fix(没有训练)。

  1. 验证仿真结论
  2. 迁移现有视觉模型比直接在目标环境训练泛化性能要好(b,d)
  3. COCO预训练模型比ImageNet好
    在这里插入图片描述
    在这里插入图片描述

4.进一步工作

A future research direction is to apply vision-guided exploration to action model training with reinforcement learning, such as “Qt-opt: Scalable deep reinforcement learning for vision-based robotic manipulation”, where the data efficiency is the bottleneck of learning.

内容概要:本文提出了一种基于非合作博弈理论的居民负荷分层调度模型,并结合双层鲸鱼优化算法(Two-level Whale Optimization Algorithm)进行高效求解,模型与算法均通过Matlab代码实现。研究针对电力系统中居民侧用电负荷的复杂调度问题,引入非合作博弈机制刻画各用户之间的利益竞争关系,实现负荷的分层优化分配;同时设计双层优化架构,上层优化资源配置,下层模拟用户自主决策行为,提升了模型的实用性与合理性。通过智能优化算法求解多层级、非凸非线性的博弈模型,有效提高了调度方案的收敛性与全局寻优能力,适用于现代智能电网中的需求侧管理与能源优化场景。; 适合人群:具备电力系统基础理论知识和Matlab编程能力,从事智能电网、能源优化调度、需求侧管理、博弈论应用等方向的科研人员、高校研究生及工程技术人员。; 使用场景及目标:①应用于居民区电力负荷的分层优化调度系统设计与仿真分析;②为非合作博弈在多主体能源系统建模中的应用提供方法论支持;③利用双层鲸鱼算法解决具有嵌套结构的复杂双层优化问题,提升求解效率与调度方案的可行性。; 阅读建议:建议读者结合提供的Matlab代码深入理解模型构建逻辑与算法实现流程,重点关注博弈模型的效用函数设计、纳什均衡求解思路以及双层优化结构的迭代机制,宜配合实际用电数据开展复现实验以验证模型有效性与鲁棒性。
内容概要:本文围绕基于自适应神经模糊推理系统(ANFIS)智能控制器的可再生能源微电网功率管理系统展开研究,结合Simulink仿真实现,深入探讨了微电网中功率的智能调控与经济机组组合调度问题。通过引入ANFIS控制器,有效应对风能、光伏等可再生能源出力的波动性与不确定性,提升系统运行的稳定性与电能质量。研究内容涵盖微电网多源协调控制策略、功率平衡管理、优化调度模型构建及仿真验证,实现了对分布式电源、储能系统和负荷的协同优化,兼顾经济性与可靠性目标,并通过仿真平台验证了所提方法的有效性与优越性。; 适合人群:具备电力系统、自动化或新能源相关专业背景,熟悉Matlab/Simulink仿真环境,从事微电网能量管理、智能控制、能源优化等领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①用于高比例可再生能源接入场景下的微电网能量管理系统研发与教学实践;②为实现微电网功率稳定控制与经济高效运行提供先进的智能控制解决方案;③支撑高水平学术论文复现、科研课题攻关及实际工程项目的仿真验证与方案优化。; 阅读建议:建议结合提供的Simulink模型与相关代码进行动手实践,重点关注ANFIS控制器的设计流程、规则库构建与参数调优方法,并通过与传统PID或MPC控制策略的对比实验,深入理解其在动态响应与鲁棒性方面的优势。同时可进一步拓展文中提出的优化调度逻辑,应用于多目标、多约束的复杂实际应用场景中。
内容概要:本文档聚焦于“直流电机双闭环控制Matlab仿真”,系统阐述了基于Matlab/Simulink平台实现直流电机双闭环控制系统(主要包括速度环与电流环)的设计与仿真全过程。通过构建直流电机的数学模型,结合PI控制器进行调控,实现对电机转速和电枢电流的高精度动态控制,验证控制策略的稳定性与响应性能。文档详细介绍了仿真模型的搭建流程、关键参数的整定方法、系统动态波形的分析手段以及仿真结果的有效性验证,体现了经典自动控制理论在实际电机系统中的工程应用,是电机控制与电力电子技术相结合的典型研究案例。; 适合人群:具备自动控制原理、电机与拖动基础、电力电子技术和Matlab/Simulink仿真能力的电气工程、自动化、机电一体化等专业的本科生、研究生及从事电机驱动系统研发的工程技术人员。; 使用场景及目标:①作为高校课程设计或实验教学材料,帮助学生深入理解双闭环调速系统的工作机理与工程实现;②服务于科研项目,为新型电机控制算法(如滑模、模糊PID等)的开发与性能对比提供基础仿真验证平台;③作为工业界产品前期设计的仿真工具,用于评估不同控制策略在动态响应、抗干扰能力和稳态精度方面的可行性。; 阅读建议:建议读者在学习过程中紧密结合自动控制理论知识,亲手在Simulink环境中搭建完整的双闭环仿真模型,通过反复调整PI控制器的比例与积分参数,观察并分析转速、电流的阶跃响应曲线,从而深刻理解反馈控制的本质、系统稳定性条件以及参数整定对动态性能的影响,进而掌握电机控制系统的设计精髓。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值