文章核心总结与翻译
一、主要内容
该研究聚焦强化学习(RL)中的探索效率问题,针对传统状态熵(SE)探索在有监督场景(含任务奖励)下的缺陷,提出了一种基于价值条件状态熵(VCSE)的新型探索技术。
-
核心问题:传统状态熵探索旨在最大化访问状态分布的均匀性以鼓励探索,但在有监督场景中,智能体倾向于访问高价值状态以利用任务奖励,导致高低价值状态分布失衡。由于状态熵在分布更均匀时增大,低价值状态会获得更高的内在奖励,使得探索偏向低价值区域,尤其当高价值状态分布狭窄时,智能体难以完成目标任务。
-
技术方案:
- 定义价值条件状态熵:基于每个状态的价值估计单独计算条件状态熵,再最大化其平均值,本质是按价值估计划分状态空间并最大化各分区的状态熵。
- 熵估计方法:采用Kraskov-Stögbauer-Grassberger(KSG)条件熵估计器,结合价值归一化方案保证训练过程中价值分布的一致性。
- 训练框架:将价值条件状态熵估计值作为内在奖励,与外在任务奖励结合,训练RL智能体最大化总奖励。
-
实验验证:在MiniGrid(导航任务)、DeepMind Control Suite(运动控制任务)和Meta-World(视觉操纵任务)三大基准测试中,验证了VCSE对A2C、DrQv2等多种RL算法的加速效果,在稀疏/密集奖励、部分/完全可观测、高维状态空间等场景下均表现优于传统状态熵

订阅专栏 解锁全文

1583

被折叠的 条评论
为什么被折叠?



