2025_NIPS_On the Importance of Exploration for Generalization in Reinforcement Learning

最新推荐文章于 2026-06-25 20:29:15 发布

原创最新推荐文章于 2026-06-25 20:29:15 发布 · 130 阅读

·

5

·

标签

#语言模型 #人工智能

LLM Daily 同时被 3 个专栏收录

2871 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

919 篇文章

订阅专栏

244 篇文章

订阅专栏

文章核心总结

主要内容

现有深度强化学习（RL）泛化改进方法多聚焦表征学习，忽视了探索这一RL特有属性。
提出假设：智能体的探索策略是其泛化到新环境的关键，通过表格型上下文马尔可夫决策过程（CMDP）实验验证，探索不仅能高效找到训练环境的最优策略，还能获取利于未知环境决策的知识。
设计EDE（Exploration via Distributional Ensemble）方法，通过Q值分布集成鼓励探索认知不确定性高的状态，是首个在Procgen和Crafter两大高维观测泛化基准上取得优异性能的基于价值的方法。

创新点

明确探索是CMDP中泛化的关键因素，通过表格型CMDP的直观示例提供支撑。
提出基于最小化智能体认知不确定性的探索方法，利用深度集成和分布型RL分离认知不确定性与随机不确定性。
首次让基于价值的方法在Procgen和Crafter基准上实现最先进性能，在样本效率和泛化能力上超越强策略优化基线。

翻译部分（Markdown格式）

Abstract

现有深度强化学习（RL）中提升泛化能力的方法大多聚焦于表征学习，却忽视了探索等强化学习特有的方面。我们假设智能体的探索策略对其泛化到新环境的能力起着关键作用。通过在表格型上下文马尔可夫决策过程（CMDP）中的一系列实验，我们发现探索不仅有助于高效找到训练

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。