2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit

最新推荐文章于 2026-06-25 20:29:15 发布

原创最新推荐文章于 2026-06-25 20:29:15 发布 · 33 阅读

·

0

·

标签

#人工智能 #算法

LLM Daily 同时被 2 个专栏收录

2868 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

919 篇文章

订阅专栏

文章核心总结与翻译

一、主要内容

本文聚焦m-集半臂赌博机问题（从d个臂中精确选择m个臂的组合半臂赌博机场景），研究了Follow-the-Perturbed-Leader（FTPL）算法在对抗性和随机性环境下的性能。在对抗性环境中，已知Follow-the-Regularized-Leader（FTRL）算法能达到O(√(nmd))的最优遗憾界，但需通过优化问题计算臂选择概率；而FTPL算法通过随机扰动选择损失最小的m个臂，无需复杂计算。作者证明了带Fréchet扰动的FTPL算法在对抗性环境下达到近最优遗憾界O(√(nm)(√(d log d)) + m^(5/6))，在随机性环境下实现对数级遗憾界O(∑(log n)/Δ_i)（Δ_i为非最优臂的次优间隙），接近“两全其美”（Best-of-Both-Worlds, BOBW）性能。同时通过下界证明，算法中的额外因子（log d和m^(5/6)/d(1/2)）无法通过现有方法移除，进一步改进需全新分析框架。

二、创新点

首次将FTPL算法扩展到m-集半臂赌博机场景，实现了对抗性和随机性环境下的近BOBW性能（m ≤ d/2时）。
扩展了FTRL分析框架，适配m-集动作空间凸包无内点的特性，简化了原有证明逻辑。
解决了m-集半臂赌博机中臂选择概率结构复杂的分析难题，通过Fréchet扰动的特性保证算法效率。
建立了算法的下界，明确现有方法的性能极限，为后续研究指明方向。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。