文章核心总结
主要内容
本文聚焦语言模型间KL散度的估计问题,针对蒙特卡洛(MC)估计器方差高、可能出现负值的缺陷,提出基于Rao-Blackwell化(RB)的改进估计器。通过理论证明RB估计器无偏且方差不超过MC估计器,同时推导了KL散度梯度的RB估计器,并在情感控制微调任务中验证:RB估计器能显著降低方差、提升RLHF训练稳定性,使模型更频繁出现在奖励- KL帕累托前沿。
创新点
- 提出Rao-Blackwell化KL估计器,无需额外计算开销,兼具无偏性和方差优越性,且天然非负。
- 推导KL散度梯度的RB估计器,为RLHF等微调场景提供更稳定的梯度计算方式。
- 系统分析MC、控制变量(CV)、Horvitz-Thompson(HT)等现有估计器的偏差与方差特性,明确RB估计器的优势。
- 实证验证RB估计器在RLHF训练中的价值,提升训练稳定性和模型帕累托最优性。
翻译部分(Markdown格式)
Abstract
估计语言模型之间的Kullback-Leibler(KL)散度具有诸多应用,例如基于人类反馈的强化学习(RLHF)、可解释性研究和知识蒸馏。然而,计算两个任意语言模型之间的精确KL散度是难以实现的。因此,研究者通常采用基于采样的估计器。尽管构造一个简单的蒙特卡洛(MC)估计器来无偏估

订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



