文章核心总结与创新点
主要内容
文章聚焦在线3D装箱问题(3D-BPP),针对现有方法在平均性能与最坏情况性能间的失衡问题,提出可调鲁棒强化学习(AR2L)框架。首先设计基于排列的攻击者评估算法鲁棒性,再通过加权求和目标函数平衡平均回报与最坏情况回报,推导混合动态下的性能下界,进而开发精确版和近似版AR2L算法(分别基于RARL和RfMDP)。实验验证了AR2L在离散、连续及真实数据集上的有效性,能在保证良好平均性能的同时提升鲁棒性。
创新点
- 提出基于排列的攻击者,通过重排观测物品序列生成真实最坏情况实例,适配3D-BPP的实际约束,避免传统噪声扰动的不适用性。
- 设计AR2L框架,引入可调鲁棒性权重α,灵活平衡平均性能与最坏情况性能,解决传统鲁棒算法过度保守的问题。
- 推导目标函数的混合动态下界,通过迭代优化策略与混合动态,保证算法性能稳定性,同时提出精确与近似两种实现方案,兼顾效果与效率。
- 实证验证AR2L的通用性,在离散、连续场景及真实混合物品数据集上均表现优异,且收敛速度快于现有鲁棒强化学习算法。
翻译部分(Markdown格式)
Abstract
设计在线3D装箱问题(3D-BPP)的有效策略是一项长期挑战,主要源于输

订阅专栏 解锁全文

2304

被折叠的 条评论
为什么被折叠?



