2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit

文章核心总结与翻译

一、主要内容

本文聚焦m-集半臂赌博机问题(从d个臂中精确选择m个臂的组合半臂赌博机场景),研究了Follow-the-Perturbed-Leader(FTPL)算法在对抗性和随机性环境下的性能。在对抗性环境中,已知Follow-the-Regularized-Leader(FTRL)算法能达到O(√(nmd))的最优遗憾界,但需通过优化问题计算臂选择概率;而FTPL算法通过随机扰动选择损失最小的m个臂,无需复杂计算。作者证明了带Fréchet扰动的FTPL算法在对抗性环境下达到近最优遗憾界O(√(nm)(√(d log d)) + m^(5/6)),在随机性环境下实现对数级遗憾界O(∑(log n)/Δ_i)(Δ_i为非最优臂的次优间隙),接近“两全其美”(Best-of-Both-Worlds, BOBW)性能。同时通过下界证明,算法中的额外因子(log d和m(5/6)/d(1/2))无法通过现有方法移除,进一步改进需全新分析框架。

二、创新点

  1. 首次将FTPL算法扩展到m-集半臂赌博机场景,实现了对抗性和随机性环境下的近BOBW性能(m ≤ d/2时)。
  2. 扩展了FTRL分析框架,适配m-集动作空间凸包无内点的特性,简化了原有证明逻辑。
  3. 解决了m-集半臂赌博机中臂选择概率结构复杂的分析难题,通过Fréchet扰动的特性保证算法效率。
  4. 建立了算法的下界,明确现有方法的性能极限,为后续研究指明方向。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值