2025_NIPS_Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration

原创于 2026-06-29 08:15:00 发布 · 96 阅读

·

6

·

标签

#人工智能 #机器学习

LLM Daily 同时被 3 个专栏收录

1211 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

1020 篇文章

订阅专栏

217 篇文章

订阅专栏

文章核心总结与翻译

一、主要内容

该研究聚焦强化学习（RL）中的探索效率问题，针对传统状态熵（SE）探索在有监督场景（含任务奖励）下的缺陷，提出了一种基于价值条件状态熵（VCSE）的新型探索技术。

核心问题：传统状态熵探索旨在最大化访问状态分布的均匀性以鼓励探索，但在有监督场景中，智能体倾向于访问高价值状态以利用任务奖励，导致高低价值状态分布失衡。由于状态熵在分布更均匀时增大，低价值状态会获得更高的内在奖励，使得探索偏向低价值区域，尤其当高价值状态分布狭窄时，智能体难以完成目标任务。
技术方案：
- 定义价值条件状态熵：基于每个状态的价值估计单独计算条件状态熵，再最大化其平均值，本质是按价值估计划分状态空间并最大化各分区的状态熵。
- 熵估计方法：采用Kraskov-Stögbauer-Grassberger（KSG）条件熵估计器，结合价值归一化方案保证训练过程中价值分布的一致性。
- 训练框架：将价值条件状态熵估计值作为内在奖励，与外在任务奖励结合，训练RL智能体最大化总奖励。
实验验证：在MiniGrid（导航任务）、DeepMind Control Suite（运动控制任务）和Meta-World（视觉操纵任务）三大基准测试中，验证了VCSE对A2C、DrQv2等多种RL算法的加速效果，在稀疏/密集奖励、部分/完全可观测、高维状态空间等场景下均表现优于传统状态熵

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。