2025_NIPS_Adjustable Robust Reinforcement Learning for Online 3D Bin Packing

最新推荐文章于 2026-06-21 22:01:11 发布

原创最新推荐文章于 2026-06-21 22:01:11 发布 · 6 阅读

·

0

·

标签

#人工智能 #深度学习

LLM Daily 同时被 3 个专栏收录

2846 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

914 篇文章

订阅专栏

239 篇文章

订阅专栏

文章核心总结与创新点

主要内容

文章聚焦在线3D装箱问题（3D-BPP），针对现有方法在平均性能与最坏情况性能间的失衡问题，提出可调鲁棒强化学习（AR2L）框架。首先设计基于排列的攻击者评估算法鲁棒性，再通过加权求和目标函数平衡平均回报与最坏情况回报，推导混合动态下的性能下界，进而开发精确版和近似版AR2L算法（分别基于RARL和RfMDP）。实验验证了AR2L在离散、连续及真实数据集上的有效性，能在保证良好平均性能的同时提升鲁棒性。

创新点

提出基于排列的攻击者，通过重排观测物品序列生成真实最坏情况实例，适配3D-BPP的实际约束，避免传统噪声扰动的不适用性。
设计AR2L框架，引入可调鲁棒性权重α，灵活平衡平均性能与最坏情况性能，解决传统鲁棒算法过度保守的问题。
推导目标函数的混合动态下界，通过迭代优化策略与混合动态，保证算法性能稳定性，同时提出精确与近似两种实现方案，兼顾效果与效率。
实证验证AR2L的通用性，在离散、连续场景及真实混合物品数据集上均表现优异，且收敛速度快于现有鲁棒强化学习算法。

翻译部分（Markdown格式）

Abstract

设计在线3D装箱问题（3D-BPP）的有效策略是一项长期挑战，主要源于输

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。