2025_NIPS_Better Estimation of the Kullback–Leibler Divergence Between Language Models

文章核心总结

主要内容

本文聚焦语言模型间KL散度的估计问题,针对蒙特卡洛(MC)估计器方差高、可能出现负值的缺陷,提出基于Rao-Blackwell化(RB)的改进估计器。通过理论证明RB估计器无偏且方差不超过MC估计器,同时推导了KL散度梯度的RB估计器,并在情感控制微调任务中验证:RB估计器能显著降低方差、提升RLHF训练稳定性,使模型更频繁出现在奖励- KL帕累托前沿。

创新点
  1. 提出Rao-Blackwell化KL估计器,无需额外计算开销,兼具无偏性和方差优越性,且天然非负。
  2. 推导KL散度梯度的RB估计器,为RLHF等微调场景提供更稳定的梯度计算方式。
  3. 系统分析MC、控制变量(CV)、Horvitz-Thompson(HT)等现有估计器的偏差与方差特性,明确RB估计器的优势。
  4. 实证验证RB估计器在RLHF训练中的价值,提升训练稳定性和模型帕累托最优性。

翻译部分(Markdown格式)

Abstract

估计语言模型之间的Kullback-Leibler(KL)散度具有诸多应用,例如基于人类反馈的强化学习(RLHF)、可解释性研究和知识蒸馏。然而,计算两个任意语言模型之间的精确KL散度是难以实现的。因此,研究者通常采用基于采样的估计器。尽管构造一个简单的蒙特卡洛(MC)估计器来无偏估

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值