CE、NCE、InfoNCE的演变过程

原创已于 2025-04-12 22:21:18 修改 · 1.3k 阅读

10 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

于 2025-04-12 21:49:20 首次发布

CE、NCE、InfoNCE的演变过程及数学推导和关系

在机器学习和深度学习中，交叉熵（ $CE$ ）、噪声对比估计（ $NCE$ ）和信息噪声对比估计（ $I n f o NCE$ ）是三个紧密相关的损失函数，逐步演变以解决不同场景下的问题。以下是它们的演变过程、数学推导及关系分析。

1. 交叉熵（Cross-Entropy, CE）

背景

$CE$ 是分类任务的基础损失函数，衡量模型预测分布 $q$ 与真实分布 $p$ 的差异。

数学形式

对于真实标签的独热编码分布 $p$ 和模型预测分布 $q$ ，交叉熵定义为：
$\text{CE}(p, q) = -\sum_{i} p_i \log q_i$

在分类任务中（ $p$ 是单点分布），简化为：
$\text{CE} = -\log q_y$
其中 $q_y$ 是模型对真实类别 $y$ 的预测概率。

应用

用于监督学习，直接优化模型输出与标签的匹配度。

2. 噪声对比估计（Noise-Contrastive Estimation, NCE）

背景

当模型输出未归一化（如语言模型中的logits）时，计算softmax的分母（配分函数）代价高昂。 $NCE$ 通过将概率密度估计转化为二分类问题，避免显式计算归一化项。

核心思想

将真实数据样本（分布 $p_d(x)$ ）与噪声样本（分布 $p_n(x)$ ）对比
模型学习密度比 $pd(x)pn(x)\frac{p_d(x)}{p_n(x)}$

数学推导

定义样本来自数据分布的概率：
$p(\text{data}=1 | x) = \frac{p_d(x)}{p_d(x) + k p_n(x)}$
其中 $k$ 是噪声样本比例。损失函数为二元交叉熵：
$\mathcal{L}_{\text{NCE}} = -\mathbb{E}_{x \sim p_d} \left[ \log \frac{p_d(x)}{p_d(x) + k p_n(x)} \right] - k \mathbb{E}_{x \sim p_n} \left[ \log \frac{k p_n(x)}{p_d(x) + k p_n(x)} \right]$

应用

用于无监督学习（如语言模型），避免计算softmax分母。

3. 信息噪声对比估计（InfoNCE）

背景

在对比学习中，需要最大化同一数据不同视角的互信息 $I(q; k^+)$ 。 $I n f o NCE$ 将 $NCE$ 扩展到多负样本场景。

核心思想

对查询 $q$ ，构造正样本 $k^+$ 和负样本 ${k^-\}$
目标：最大化 $exp⁡(q⋅k+/τ)∑exp⁡(q⋅k/τ)\frac{\exp(q \cdot k^+/ \tau)}{\sum \exp(q \cdot k/ \tau)}$

数学推导

损失函数形式：
$\mathcal{L}_{\text{InfoNCE}} = -\mathbb{E} \left[ \log \frac{\exp(q \cdot k^+ / \tau)}{\exp(q \cdot k^+ / \tau) + \sum_{k^-} \exp(q \cdot k^- / \tau)} \right]$
其中 $τ\tau$ 是温度系数。

理论意义

$I n f o NCE$ 是互信息的下界：
$k^+) \geq \log N - \mathcal{L}_{\text{InfoNCE}}$
$N$ 为负样本数+1。

三者关系总结

方法	目标	数学形式	关键改进
$CE$	监督分类	$−log⁡exp⁡(sy)∑iexp⁡(si)-\log \frac{\exp(s_y)}{\sum_{i} \exp(s_i)}$	直接概率匹配
$NCE$	无监督密度估计	$−log⁡pd(x)pd(x)+kpn(x)−klog⁡kpn(x)pd(x)+kpn(x)-\log \frac{p_d(x)}{p_d(x)+k p_n(x)} - k \log \frac{k p_n(x)}{p_d(x)+k p_n(x)}$	二分类替代配分函数计算
$I n f o NCE$	对比学习/互信息最大化	$−log⁡exp⁡(q⋅k+/τ)∑exp⁡(q⋅k/τ)-\log \frac{\exp(q \cdot k^+/ \tau)}{\sum \exp(q \cdot k/ \tau)}$	多负样本扩展

演变逻辑

$CE$ → $NCE$ 的演进：
针对高维输出空间中softmax归一化分母计算复杂度 $O (∣ V ∣)$ 过高的问题（其中 $∣ V ∣$ 为类别数）， $NCE$ 通过引入噪声对比的范式转变，将原始的多类概率估计问题重构为判别二分类问题。具体而言：
- 构建噪声分布 $p_n(x)$ 与数据分布 $p_d(x)$ 的对抗框架
- 通过调节噪声样本比例 $k$ 控制计算复杂度，实现计算效率从 $O (∣ V ∣)$ 到 $O (k)$ 的优化
- 保持概率密度比 $pd(x)pn(x)\frac{p_d(x)}{p_n(x)}$ 的渐进一致性
$NCE$ → $I n f o NCE$ 的演进：
基于表示学习的需求， $I n f o NCE$ 在 $NCE$ 的基础上进行了三个关键改进：
- 样本构造：从显式噪声分布采样转为隐式负样本挖掘（ $N - 1$ 个负例）
- 目标函数：从二元logistic损失扩展为基于温度系数 $τ\tau$ 的多类softmax交叉熵
- 理论保障：建立与互信息 $I(q;k^+)$ 的显式关联，满足 $lim⁡N→∞I(q;k+)≥log⁡N−LInfoNCE\lim_{N \to \infty} I(q;k^+) \geq \log N - \mathcal{L}_{\text{InfoNCE}}$