2025_NIPS_Better Estimation of the Kullback–Leibler Divergence Between Language Models

原创于 2026-01-15 08:30:00 发布 · 44 阅读

·

0

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 同时被 2 个专栏收录

2892 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

919 篇文章

订阅专栏

文章核心总结

主要内容

本文聚焦语言模型间KL散度的估计问题，针对蒙特卡洛（MC）估计器方差高、可能出现负值的缺陷，提出基于Rao-Blackwell化（RB）的改进估计器。通过理论证明RB估计器无偏且方差不超过MC估计器，同时推导了KL散度梯度的RB估计器，并在情感控制微调任务中验证：RB估计器能显著降低方差、提升RLHF训练稳定性，使模型更频繁出现在奖励- KL帕累托前沿。

创新点

提出Rao-Blackwell化KL估计器，无需额外计算开销，兼具无偏性和方差优越性，且天然非负。
推导KL散度梯度的RB估计器，为RLHF等微调场景提供更稳定的梯度计算方式。
系统分析MC、控制变量（CV）、Horvitz-Thompson（HT）等现有估计器的偏差与方差特性，明确RB估计器的优势。
实证验证RB估计器在RLHF训练中的价值，提升训练稳定性和模型帕累托最优性。

翻译部分（Markdown格式）

Abstract

估计语言模型之间的Kullback-Leibler（KL）散度具有诸多应用，例如基于人类反馈的强化学习（RLHF）、可解释性研究和知识蒸馏。然而，计算两个任意语言模型之间的精确KL散度是难以实现的。因此，研究者通常采用基于采样的估计器。尽管构造一个简单的蒙特卡洛（MC）估计器来无偏估

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。