2025_NIPS_Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration

文章核心总结与翻译

一、主要内容

该研究聚焦强化学习(RL)中的探索效率问题,针对传统状态熵(SE)探索在有监督场景(含任务奖励)下的缺陷,提出了一种基于价值条件状态熵(VCSE)的新型探索技术。

  1. 核心问题:传统状态熵探索旨在最大化访问状态分布的均匀性以鼓励探索,但在有监督场景中,智能体倾向于访问高价值状态以利用任务奖励,导致高低价值状态分布失衡。由于状态熵在分布更均匀时增大,低价值状态会获得更高的内在奖励,使得探索偏向低价值区域,尤其当高价值状态分布狭窄时,智能体难以完成目标任务。

  2. 技术方案

    • 定义价值条件状态熵:基于每个状态的价值估计单独计算条件状态熵,再最大化其平均值,本质是按价值估计划分状态空间并最大化各分区的状态熵。
    • 熵估计方法:采用Kraskov-Stögbauer-Grassberger(KSG)条件熵估计器,结合价值归一化方案保证训练过程中价值分布的一致性。
    • 训练框架:将价值条件状态熵估计值作为内在奖励,与外在任务奖励结合,训练RL智能体最大化总奖励。
  3. 实验验证:在MiniGrid(导航任务)、DeepMind Control Suite(运动控制任务)和Meta-World(视觉操纵任务)三大基准测试中,验证了VCSE对A2C、DrQv2等多种RL算法的加速效果,在稀疏/密集奖励、部分/完全可观测、高维状态空间等场景下均表现优于传统状态熵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值