文献阅读：The Stepwise Informativeness Assumption:Why are Entropy Dynamics and Reasoning Correlated in LL

最新推荐文章于 2026-06-27 20:57:32 发布

原创最新推荐文章于 2026-06-27 20:57:32 发布 · 171 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#论文阅读

标题：The Stepwise Informativeness Assumption:Why are Entropy Dynamics and Reasoning Correlated in LLMs?

分步信息假设SIA：熵的动态情况和LLM的推理为什么相关？

arXiv:2604.06192v

背景

目前有很多工作用各种基于熵的信号来研究LLM的推理过程，但大多是从经验的角度出发的。一个关键问题是：为什么依据模型预测分布来定义的内部的熵动态情况（internal entropy dynamics），会和基于真实标准答案来定义的外部正确性（external correctness）如此强相关？。

方法

一、基础定义（2.1–2.4 节：模型、分布、信息论基础）

1. 自回归分解（定义1）

给定 token 序列： $X1:K=(X1,…,XK)X_{1:K} = (X_1, \dots, X_K)$ ,对于参数为 $θ\theta$ 的语言模型,一个完整序列的概率可按自回归方式分解为：
$pθ(X1:K)=∏k=1Kpθ(Xk∣X<k)p_\theta(X_{1:K}) = \prod_{k=1}^K p_\theta(X_k \mid X_{<k})$
其中： $X_{<k} = X_{1:k-1}$ ,对于下一个 token： $pθ(Xk+1∣X1:k)p_\theta(X_{k+1} \mid X_{1:k})$ 就是 next-token 预测概率。

2. 自回归语言模型的训练目标（定义2）

训练预料集D为N个 $K_i$ 长度的token序列： $D={X1:Ki(i)}i=1N\mathcal{D} = \{ X^{(i)}_{1:K_i} \}_{i=1}^N$
对于参数为 $θ\theta$ 的语言模型，最大似然训练目标：
$θ∗=arg⁡max⁡θ∑i=1Nlog⁡pθ(X1:Ki(i))\theta^* = \arg\max_{\theta} \sum_{i=1}^N \log p_\theta(X^{(i)}_{1:K_i})$
在实际应用中，利用上面的自回归分解：
$log⁡pθ(X1:Ki(i))=∑k=1Kilog⁡pθ(Xk(i)∣X<k(i))\log p_\theta(X^{(i)}_{1:K_i}) = \sum_{k=1}^{K_i} \log p_\theta(X^{(i)}_k \mid X^{(i)}_{<k})$

该目标通过最小化交叉熵损失函数 $LCE=−∑i=1N∑k=1Kilog⁡pθ(Xk(i)∣X<k(i))L_{CE} = -\sum_{i=1}^{N} \sum_{k=1}^{K_i} \log p_\theta(X_k^{(i)} \mid X_{<k}^{(i)})$ 来实现。这个目标鼓励模型让未来 token 在过去上下文下更可预测。

交叉熵：基础定义（两个概率分布）:给定真实分布 $p (x)$ 、模型预测分布 $q (x)$ ，交叉熵定义为：
$-\sum_{x} p(x) \log q(x)$
$p (x)$ ：真实数据的概率分布（固定，不可改）
$q (x)$ ：模型输出的概率分布（可训练、可优化）

含义：
熵：衡量一个分布自身的不确定；
交叉：用模型 $q$ 的概率去算真实 $p$ 的不确定——跨了两个分布，所以叫交叉熵。
$\parallel q)$ 交叉熵 = 真实分布的熵（常数） + 真实与模型的差距。

LLM训练时，对于真实分布 $p (x)$ ：真实token $X_k^{(i)}$ ： $p = 1$ ，其他所有token： $p = 0$
代入标准交叉熵公式，求和只剩真实token那一项： $-1\cdot\log q(X_k^{(i)}) + \sum_{\text{其他}}0\cdot\log q(x) = -\log q(X_k^{(i)})$
这里的 $L_{CE}$ ：把所有样本、所有token的简化交叉熵求和： $LCE=−∑i=1N∑k=1Kilog⁡pθ(Xk(i)∣X<k(i))L_{CE} = -\sum_{i=1}^N \sum_{k=1}^{K_i} \log p_\theta(X_k^{(i)} \mid X_{<k}^{(i)})$

3. 三大核心分布（定义3–5）

真实问答分布 $p^*(Q,A)$ ：外部标准答案分布，固定不变。
人类推理分布 $r(Q,C_{1:K},A)$ ：人类写「问题+推理+答案」的分布。
模型推理分布 $pθ(C1:K∣Q)p_\theta(C_{1:K} \mid Q)$ 、 $pθ(A∣Q,C1:K)p_\theta(A \mid Q,C_{1:K})$ ：模型生成推理、预测答案的分布。

3.1 真实答案分布

问题为： $\in \mathcal{Q}$ ,答案为： $\in \mathcal{A}$
真实分布： $\sim p^{*}(Q, A)$
真实后验： $p∗(A∣Q)p^{*}(A \mid Q)$
所有“正确性”都是相对于这个真实分布定义的。

3.2 人类 CoT 数据生成分布

在人类标注推理数据中，每个样本包含： $Q, C_{1:K}, A)$

$Q$ ：问题；
$C_{1:K}$ ：人类写出的思维链；
$A$ ：正确答案。

论文定义经验联合分布：
$C_{1:K}, A) = p^{*}(Q, A)\, r(C_{1:K}, A \mid Q)$
其中 $p⋆(Q,A)p^\star(Q, A)$ 为真实问答分布， $r(C1:K,A∣Q)r(C_{1:K}, A \mid Q)$ 用于描述人工标注的在解答问题时生成思维链轨迹的过程。

3.3 模型预测分布

模型生成推理链： $C1:K=(C1,…,CK)C_{1:K} = (C_1, \dots, C_K)$
模型在完整推理链上构建的自回归分布： $pθ(C1:K∣Q)=∏k=1Kpθ(Ck∣Q,C<k)p_\theta(C_{1:K} \mid Q) = \prod_{k=1}^K p_\theta(C_k \mid Q, C_{<k})$
给定完整推理链后，模型生成答案序列： $(A_1, \dots, A_T)$
在给定推理链的条件下，在答案序列上构建的自回归分布： $pθ(A∣Q,C1:K)=∏t=1Tpθ(At∣Q,C1:K,A<t)p_\theta(A \mid Q, C_{1:K}) = \prod_{t=1}^T p_\theta(A_t \mid Q, C_{1:K}, A_{<t})$

4. 信息论基础定义

4.1 熵

对于离散随机变量 $\sim p(x)$ ，熵定义为：
$-\sum_{x \in \mathcal{X}} p(x) \log p(x)$

熵表示平均不确定性。

4.2 条件熵

含义：对于 $\in \mathcal{X}, y \in \mathcal{Y}$ ,已知 $X$ 时， $Y$ 的剩余不确定性 $\mid X)$ 。
$\mid X) = -\sum_{x \in \mathcal{X}, y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)}$
因为： $p(x,y)p(x)=p(y∣x)\frac{p(x, y)}{p(x)} = p(y \mid x)$
所以也可写成： $\mid X) = -\sum_{x, y} p(x, y) \log p(y \mid x)$

4.3 互信息

$\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)p(y)}$
互信息 $I (X; Y)$ ：衡量随机变量 $X$ 和 $Y$ 共享多少信息。知道 X，对 Y 的不确定性减少了多少,反之亦然。XY越相关，互信息越大，完全独立，互信息为0。

例如： $I(A;C_k|Q,C_{<k})$ 在已知问题 Q 和前面所有推理步骤 C<k 的前提下，当前这一步 Cₖ，给真实答案 A 提供了多少新信息。>0则这一步有用，=0没用，<0误导。

有等价形式： $\mid Y) = H(Y) - H(Y \mid X)$
条件互信息为： $\mid Z) = H(X \mid Z) - H(X \mid Y, Z)$

(H(Y))：完全不了解X时，对Y的总不确定性（熵越大，越难猜准Y）；
(H(Y|X))：已经知道X的取值后，你对Y剩余的不确定性；
两者的差值(H(Y)-H(Y|X))：就是获知X之后，你对Y减少的不确定性，也就是X能分享给Y的信息量；

二、核心自定义定义&&关键引理、命题、定理

4.1. Stepwise information gain 分步信息增益

1. 点式惊讶度（定义9 Pointwise surprisal）

$\mid q,c_{<k}) = -\log p(a \mid q,c_{<k})$

含义：单条样本中，在看到第 (k) 步之前的前缀时，真实答案 (a) 的 surprisal；已知前缀时，真实答案 $a$ 的个体不确定性（区别于熵的平均），熵的单样本版本，去掉求和。

2. 单步信息增益 $Δk\Delta_k$ （定义10 Information gain）

$\begin{align*} \Delta_k(q,a,c_{1:k}) &= h(a \mid q,c_{<k}) - h(a \mid q,c_{\le k})\\ &= -\log p(a\mid q,c_{<k}) + \log p(a\mid q,c_{\le k}) \\ &= \log\frac{p(a\mid q,c_{\le k})}{p(a\mid q,c_{<k})} \\ \end{align*}$

含义：单条推理第 $k$ 步的信息增益：
- $Δk>0;p(a∣q,c≤k)>p(a∣q,c<k)\Delta_k>0; p(a\mid q,c_{\le k})>p(a\mid q,c_{<k})$ ：这一步有效，让答案更确定；
- $Δk<0;p(a∣q,c≤k)<p(a∣q,c<k)\Delta_k<0; p(a\mid q,c_{\le k})<p(a\mid q,c_{<k})$ ：这一步误导，让答案更不确定。
走这一步前的惊讶度 − 走后的惊讶度，差值即增益。

3. 引理1： $E[Δk]=\mathbb{E}[\Delta_k]=$ 条件互信息

$\begin{align} \mathbb{E}[\Delta_k] &= \sum_{q,a,c_{1:k}}p(q,a,c_{1:k})\log\frac{p(a\mid q,c_{\le k})}{p(a\mid q,c_{<k})} ;\text{把 $c_{1:k}$ 拆成 $c_{<k},c_k$}\\ &= \sum_{q,c_{<k},c_k,a}p(q,c_{<k},c_k,a)\log\frac{p(a\mid q,c_{<k},c_k)}{p(a\mid q,c_{<k})} \\ &= \sum_{q,c_{<k}}p(q,c_{<k})\sum_{a,c_k}p(a,c_k\mid q,c_{<k})\log\frac{p(a,c_k\mid q,c_{<k})}{p(a\mid q,c_{<k})p(c_k\mid q,c_{<k})}\\ &= \sum_{q,c_{<k}}p(q,c_{<k}) I(A;C_k\mid Q=q,C_{<k}=c_{<k})\\ &= I(A;C_k \mid Q,C_{<k}) \\ &= H(A \mid Q,C_{<k}) - H(A \mid Q,C_{\le k})\\ \end{align}$
$E[Δk]=I(A;Ck∣Q,C<k)=H(A∣Q,C<k)−H(A∣Q,C≤k)\mathbb{E}[\Delta_k]= I(A;C_k \mid Q,C_{<k})= H(A \mid Q,C_{<k}) - H(A \mid Q,C_{\le k})$

含义：单次增益的平均值=单步互信息，连接个体行为与群体统计。

4. 累积信息增益 $G_k$ （定义11 Cumulative gain）

$\begin{align*} G_k &= \sum_{t=1}^k \Delta_t \\ &= \sum_{t=1}^k [h(a\mid q,c_{<t})-h(a\mid q,c_{\le t})] \\ &= \left[ h(a \mid q, c_{<1}) - h(a \mid q, c_{\le 1}) \right] + \left[ h(a \mid q, c_{<2}) - h(a \mid q, c_{\le 2}) \right] + \left[ h(a \mid q, c_{<3}) - h(a \mid q, c_{\le 3}) \right] + \dots + \left[ h(a \mid q, c_{<k}) - h(a \mid q, c_{\le k}) \right] \\ &= \underbrace{h(a \mid q)}_{t=1,\ c_{<1}} - \cancel{h(a \mid q, c_{\le 1})} + \cancel{h(a \mid q, c_{<2})} - \cancel{h(a \mid q, c_{\le 2})} + \cancel{h(a \mid q, c_{<3})} - \cancel{h(a \mid q, c_{\le 3})} + \dots + \cancel{h(a \mid q, c_{<k})} - h(a \mid q, c_{\le k}) \\ &= h(a \mid q) - h(a \mid q,c_{\le k}) \\ &= -\log p(a\mid q)+\log p(a\mid q,c_{\le k}) \\ &= \log\frac{p(a\mid q,c_{\le k})}{p(a\mid q)} \\ \end{align*}$

$Gk=∑t=1kΔt=h(a∣q)−h(a∣q,c≤k)G_k = \sum_{t=1}^k \Delta_t = h(a \mid q) - h(a \mid q,c_{\le k})$
含义：

$\mid q)$ ：只有问题 ( q ) 时，答案 ( a ) 的初始惊讶度（初始不确定性）
$ h(a \mid q, c_{\le k})$：经过 ( k ) 步推理后，答案 ( a ) 的剩余惊讶度（剩余不确定性）
两者的差，就是前 ( k ) 步推理总共消除了多少不确定性，即单条样本累积的信息增益,推理前缀 $C_{1:k}$ 让答案 $a$ 相比初始问题 q变得多可预测。

期望形式：
$E[Gk]=E[h(a∣q)−h(a∣q,c≤k)]=E[−log⁡p(a∣q)]−E[−log⁡p(a∣q,c≤k)]=H(A∣Q)−H(A∣Q,C1:k)=I(A;C1:k∣Q)=∑t=1kI(A;Ct∣Q,C<t)\begin{align*} \mathbb{E}[G_k] &= \mathbb{E}\left[ h(a \mid q) - h(a \mid q, c_{\le k}) \right] \\ &= \mathbb{E}\left[ -\log p(a \mid q) \right] - \mathbb{E}\left[ -\log p(a \mid q, c_{\le k}) \right] \\ &= H(A \mid Q) - H(A \mid Q, C_{1:k}) \\ &= I(A; C_{1:k} \mid Q) \\ &= \sum_{t=1}^k I(A; C_t \mid Q, C_{<t}) \\ \end{align*}$

含义：前 $k$ 步累计信息增益，期望是前缀与答案的互信息。

4.2. Stepwise Informativeness Assumption 分步信息假设

1. 耦合分布 (\Pi)：连接模型轨迹和真实答案

模型内部熵来自 (p_\theta)，真实答案来自 (p^\star)。为了把二者放在同一个概率空间里，论文定义一族联合分布：
$p(C1:K∣Q)=pθ(C1:K∣Q)}\Pi = \{p(Q,C_{1:K},A) \mid p(Q,A)=p^*(Q,A),\ p(C_{1:K} \mid Q)=p_\theta(C_{1:K} \mid Q)\}$

含义：用一个联合分布把“外部正确性”和“内部推理轨迹”连接起来。

任意 $p∈Πp\in\Pi$ 都必须满足两点：

问题和真实答案边缘分布正确： $p(Q,A)=p⋆(Q,A)p(Q,A)=p^\star(Q,A)$
推理链的条件分布等于模型生成分布： $p(C1:K∣Q)=pθ(C1:K∣Q)p(C_{1:K}\mid Q)=p_\theta(C_{1:K}\mid Q)$
但是它不要求： $A⊥C1:K∣QA\perp C_{1:K}\mid Q$
“This avoids imposing any conditional independence between A and C1:K given Q.”
真实答案和模型推理链之间可以存在耦合。

2. 命题1：条件熵=累积信息 Conditional answer entropy as cumulative information

$Hp(A∣Q,C1:k)=Hp(A∣Q)−Ip(A;C1:k∣Q)H_p(A \mid Q,C_{1:k}) = H_p(A \mid Q) - I_p(A;C_{1:k} \mid Q)$

含义：在概率分布p下，条件答案熵并非单纯的内部不确定性度量，它是一个进度变量，可反映已积累的关于正确答案的信息量。

3. 分步信息假设 SIA（假设1）

$p∈ΠI_p(A;C_{1:k} \mid Q) \ge \epsilon_k>0,\quad \forall k\ge1,\ p\in\Pi$

含义：在某个答案一致的联合分布p下，推理前缀 $C_{1:k}$ 对真实答案A 含有正的互信息。
需要注意的是：
- SIA 是关于前缀的，不是每个 token 都必须有用
- SIA 是关于联合耦合p，不是单独关于 $p_θ$
- 序列 ${ϵ_k\}$ 用于量化与答案相关的累计信息增益，根据命题1， $Hp(A∣Q,C1:k)H_p(A \mid Q,C_{1:k})$ 则反映模型是否在朝着正确答案的方向演进,即：SIA 下条件答案熵成为推理进展变量。

4. 定理1：熵约束推理准确率 Entropy constrains achievable accuracy

$Pe(k)≥Hp(A∣Q,C1:k)−log⁡2log⁡(∣A∣−1)P_e^{(k)} \ge \frac{H_p(A \mid Q,C_{1:k}) - \log2}{\log(|\mathcal{A}|-1)}$

设：

$A^k\widehat A_k$ ,为基于 ((Q,C_{1:k})) 的 Bayes 最优预测器(选择给定条件下最大的概率的一类)，即： $A^k=arg⁡max⁡ap(a∣Q,C1:k)\widehat A_k=\arg\max_a p(a\mid Q,C_{1:k})$
$Pe(k)=Pr⁡(A^k≠A)P_e^{(k)}=\Pr(\widehat A_k\ne A)$ ,表示误分类概率

则：
$Pe(k)≥Hp(A∣Q,C1:k)−log⁡2log⁡(∣A∣−1)P_e^{(k)}\ge\frac{H_p(A\mid Q,C_{1:k})-\log 2}{\log(|\mathcal A|-1)}$
其中： $∣A∣>2|\mathcal A|>2$

含义：
- 如果条件答案熵还很高，那么无论用什么预测器，错误率都不可能太低。
- 定理1给出了正确性的一个必要条件：一条推理链的正确性无法得到可靠保证，除非其前缀具备足够低的条件答案熵。

5. Early vs Late Information Gain

论文进一步讨论：
如果两个推理链最终积累的信息量相同，但是在推理轨迹的起始片段上，其中一条推理链的条件答案熵低于另一条，则在该片段全程范围内，其可实现误差的信息论下界严格更小。

更早实现熵值下降也能让更多token在低条件熵环境下生成，后续步骤受采样噪声或无效分支干扰而出错的概率更低。
由此得出一条用于甄别正确推理链的实操判定标准：

合格的推理链应当在受条件熵单调性约束倒逼之前，就早早锁定答案。

6. Saturation：饱和度

对于许多任务，从一条推理链能提取的答案相关信息是有限的，那么随着推理进行,条件熵 $H(A∣Q,C1:k)H(A\mid Q,C_{1:k})$ 会下降，到某个低值后，进一步下降空间很小，甚至会趋于平稳 plateau：
$H(A∣Q,C1:k+1)≈H(A∣Q,C1:k)H(A\mid Q,C_{1:k+1}) \approx H(A\mid Q,C_{1:k})$

额外的/另外的推理步骤也无法有效降低答案的不确定性。
达到平稳不足以证明正确，但一直不饱和，说明模型没有稳定收敛到答案，等同于不正确。

4.3. Why is SIA a reasonable assumption?

论文从两个方向解释：

人类推理轨迹本身具有逐步信息性；
MLE / SFT / RL 会把这种结构转移到模型中。

1. 人类推理轨迹中的分步信息量

论文引用了一份研究的观点：Futrell & Hahn于2025年开展的近期研究表明，在受现实认知条件（记忆、注意力与信息处理能力有限）约束的前提下，能够最小化预测信息（即过去与未来间的互信息）的时序信号会形成一种特有结构：信息被拆解为近似相互独立的组成部分，且各部分以局部化、渐进式的形式呈现。由此生成的信息序列具备循序渐进、层层增益信息的特点，与自然语言的内在结构高度契合，同时有助于后续的序列预测工作。
人工编写的推理轨迹是这类序列信号的一种特例，额外具备一个特性：其后续内容包含正确答案。在相同约束条件下，前文片段会不断缩小合理接续内容与答案的可选范围。随着推理逐步推进，从整体上来看，正确答案的可预测性会不断提升。
从形式上定义，令 $C_{1:K}$ 代表人类生成的思维链， $A$ 为标准答案。若推理轨迹能够最小化预测信息，则前缀 $C_{1:k}$ 针对后续字符（包含答案 $A$ ）承载的互信息会逐步递增。与之等价，在数据生成分布 $r(Q, C_{1:K}, A)$ 下，条件答案熵 $Hr(A∣Q,C1:k)H_r(A \mid Q, C_{1:k})$ 的期望值随 $k$ 增大而递减，这意味着前缀层面的互信息 $Ir(A;C1:k∣Q)I_r(A; C_{1:k} \mid Q)$ 持续升高。

data generating distribution指的生成全部观测数据的客观真实联合概率分布

关键在于，该论证并未假定人类会为保证正确性而优化中间步骤，也不认为人类在生成内容的过程中能够获取答案分布。分步信息性反而是序列受到通用认知约束后产生的结构性结果。

2. 最大似然训练下分布信息量的传递 TRANSFER OF STEPWISE INFORMATIVENESS UNDER MAXIMUM LIKELIHOOD TRAINING

即研究：人类推理轨迹中存在的分步信息增益特性，能否通过极大似然估计训练迁移至模型中

2.1 引理2：MLE=最小KL散度

$L(θ)=H(r)+KL(r∥pθ)\mathcal{L}(\theta) = H(r) + KL(r \parallel p_\theta)$

$r$ :完整序列 $X=(Q,C_{1:K},A)$ 的数据生成分布，
$pθp_\theta$ :模型分布;
$L(θ)\mathcal{L}(\theta)$ :负对数似然函数 $=EX∼r[−log⁡pθ(X)]=\mathit{E}_{X \sim r}[- \log p_\theta(X)]$
推导：
$L(θ)=EX∼r[−log⁡pθ(X)]=−∑xr(x)log⁡pθ(x)=−∑xr(x)log⁡pθ(x)+∑xr(x)logr(x)−∑xr(x)logr(x)=−∑xr(x)logr(x)+∑xr(x)logr(x)pθ(x)=H(r)+KL(r∥pθ)\begin{align*} \mathcal{L}(\theta) &= \mathit{E}_{X \sim r}[- \log p_\theta(X)] \\ &= - \sum_x r(x) \log p_\theta(x) \\ &= - \sum_x r(x) \log p_\theta(x) + \sum_x r(x)log r(x) - \sum_x r(x)log r(x)\\ &= - \sum_x r(x)log r(x) + \sum_x r(x)log \frac{r(x)}{p_\theta(x)}\\ &= H(r) + KL(r \parallel p_\theta) \\ \end{align*} \\$
$\parallel p_\theta)=\sum_x r(x)log \frac{r(x)}{p_\theta(x)}$

因此，最小化 $L(θ)\mathcal{L}(\theta)$ ，等价于最小化 $\parallel p_\theta)$ 。任意一组能够降低 $L(θ)\mathcal{L}(\theta)$ 的参数 $θ\theta$ 序列，都会使模型分布 $pθp_\theta$ 在KL散度意义下向数据分布 $r$ 收敛。由此可得，当损失函数 $L(θ)L(\theta)$ 取极小值附近时， $pθp_\theta$ 近似等于 $r$ 。

2.2 引理3：KL分解(KL Decomposition of the Joint Conditional)

$KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))=KL(r(C1:K∣Q)∥pθ(C1:K∣Q))+Er(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]KL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) = KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) + \mathbb{E}_{r(C_{1:K}\mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))]$

2.3 引理4：KL有界→边缘/条件KL有界(MLE Implies Marginal and Conditional Alignment)

${KL(r(C1:K∣Q)∥pθ(C1:K∣Q))≤δEr(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]≤δKL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) \le \delta \implies \begin{cases} KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) \le \delta \\ \mathbb{E}_{r(C_{1:K} \mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))] \le \delta \end{cases}$

根据引理3可知，若等式左边的和≤δ，等式右边的每一项也≤δ。

2.4 引理5：KL散度下熵的连续性 (Continuity of Entropy under KL)

设 $P$ 与 $Q$ 为有限字母集 $X$ 上的概率分布，满足 $KL(P∥Q)≤δ\mathrm{KL}(P\|Q) \le \delta$ ，则存在映射 $fX:[0,∞)→[0,∞)f_X:[0,\infty)\to[0,\infty)$ ，满足 $δ→0\delta\to0$ 时 $fX(δ)→0f_X(\delta)\to0$ 当 $δ→0\delta\to0$ ，使得：
$∣H(P)−H(Q)∣≤fX(δ)|H(P)-H(Q)|\le f_X(\delta)$
特别地，对任意 $ε>0\varepsilon>0$ ，总存在 $δ>0\delta>0$ ，满足
$∣H(P)−H(Q)∣≤ε\mathrm{KL}(P\|Q) \le \delta \implies |H(P)-H(Q)| \le \varepsilon$

推导
设 $∥⋅∥TV\|\cdot\|_{\text{TV}}$ 表示全变差距离，定义：
$∥P−Q∥TV:=12∑x∈X∣P(x)−Q(x)∣.\|P-Q\|_{\text{TV}}:= \frac12\sum_{x\in \mathcal{X}}|P(x)-Q(x)|.$
根据Pinsker不等式：
$∥P−Q∥TV≤12KL(P∥Q)≤δ2.\|P-Q\|_{\text{TV}} \le \sqrt{\frac12\text{KL}(P\|Q)} \le \sqrt{\frac{\delta}{2}}.$
记 $ε:=∥P−Q∥TV\varepsilon:=\|P-Q\|_{\text{TV}}$ 。Fannes-Audenaert 不等式（奥德纳特，2007）（有限字母集上熵的连续性）指出：若满足 $ε≤1−1∣X∣\varepsilon \le 1-\dfrac1{|\mathcal{X}|}$ ，则
$H(P)−H(Q)≤εlog⁡(∣X∣−1)+h2(ε),H(P)-H(Q)\le \varepsilon\log(|\mathcal{X}|-1)+h_2(\varepsilon),$
其中二元熵函数定义为 $h2(ε):=−εlog⁡ε−(1−ε)log⁡(1−ε)h_2(\varepsilon):=-\varepsilon\log\varepsilon-(1-\varepsilon)\log(1-\varepsilon)$ 。
联立上述两个不等式，对所有满足 $δ/2≤1−1∣X∣\sqrt{\delta/2}\le1-\dfrac1{|\mathcal{X}|}$ 的 $δ>0\delta>0$ ，可得：
$∣H(P)−H(Q)∣≤fX(δ),|H(P)-H(Q)|\le f_{\mathcal{X}}(\delta),$
可取函数
$fX(δ):=δ2log⁡(∣X∣−1)+h2(δ2).f_{\mathcal{X}}(\delta):=\sqrt{\frac{\delta}{2}}\log(|\mathcal{X}|-1)+h_2\big(\sqrt{\frac{\delta}{2}}\big).$
函数 $fXf_{\mathcal{X}}$ 连续，且当 $δ→0\delta\to0$ 时有 $fX(δ)→0f_{\mathcal{X}}(\delta)\to0$ ，原因是等式右侧两项在该极限下均趋于零。
最后由连续性可推出 $ε\varepsilon$ - $δ\delta$ 形式结论：对任意给定 $ε>0\varepsilon>0$ ，总能选取 $δ>0\delta>0$ 使得 $fX(δ)≤εf_{\mathcal{X}}(\delta)\le\varepsilon$ 。
预备知识

Pinsker不等式： $KL(P∥Q)≥2∥P−Q∥TV2KL(P\parallel Q) \ge 2\|P-Q\|_{\text{TV}}^2$

推导：
Total Variation Distance: $V(P,Q)=12∑x∈X∣P(x)−Q(x)∣=∥P−Q∥TVV(P,Q)=\frac{1}{2}\sum_{x \in \mathcal{X}}|P(x)-Q(x)|=\|P-Q\|_{\text{TV}}$
KL散度： $KL(P∥Q)=∑x∈XP(x)lnP(x)Q(x)KL(P\parallel Q) = \sum_{x \in \mathcal{X}}P(x)ln\frac{P(x)}{Q(x)}$
要证明： $KL(P∥Q)≥2∥P−Q∥TV2KL(P\parallel Q) \ge 2\|P-Q\|_{\text{TV}}^2$ ,需利用引理：当x>-1, $\ge \frac{x^2/2}{1+x/3}$

证明这个不等式，令 $x)\ln(1 + x) - x$ ，有 $\ln(1 + x)$ ， $\frac{1}{1 + x}$ ；再令
$\frac{f(x) - f(0) - f'(0)x}{x^2/2} = \frac{f(x)}{x^2/2},$
而 $\lim_{x \to 0} F(x) = 1$ ，从而使其连续。分子部分有
$\int_0^x f''(t)(x - t) dt = x^2 \int_0^1 f''(xt)(1 - t) dt.$
易见 $\mapsto f''(xt)$ 是凸函数，由Jensen不等式
(对于凸函数， $f(λ⋅x1+(1−λ)⋅x2)≤λ⋅f(x1)+(1−λ)⋅f(x2)f\big(\lambda \cdot x_1 + (1-\lambda) \cdot x_2\big) \le \lambda \cdot f(x_1) + (1-\lambda) \cdot f(x_2)$ ,一般形式： $f(∑i=1nλixi)≤∑i=1nλif(xi)f\left( \sum_{i=1}^{n} \lambda_i x_i \right) \le \sum_{i=1}^{n} \lambda_i f(x_i)$ ，连续形式： $f(∫xg(x)⋅xdx)≤∫xg(x)⋅f(x)dxf(\int_x g(x)\cdot x dx) \le \int_x g(x)\cdot f(x)dx$ )
$x22∫01f′′(xt)⋅2(1−t)dt≥x22f′′(x∫01t⋅2(1−t)dt)=x22f′′(x3).\frac{x^2}{2} \int_0^1 f''(xt) \cdot 2(1 - t) dt \ge \frac{x^2}{2} f''\left( x \int_0^1 t \cdot 2(1 - t) dt \right) = \frac{x^2}{2} f''\left( \frac{x}{3} \right).$
从而
$\frac{f(x)}{x^2/2} \ge f''\left( \frac{x}{3} \right) = \frac{1}{1 + x/3}.$
证明了引理。

定义 $r (x) = p (x) / q (x) - 1$ ,易见 $EQ[r(x)]=0\mathbb E_Q[r(x)]=0$ ，由Cauchy-Schwarz不等式。
(离散形式： $(∑i=1naibi)2≤(∑i=1nai2)(∑i=1nbi2)\left( \sum_{i=1}^{n} a_i b_i \right)^2 \leq \left( \sum_{i=1}^{n} a_i^2 \right) \left( \sum_{i=1}^{n} b_i^2 \right)$ ;连续形式： $(∫abf(x)g(x)dx)2≤(∫abf(x)2dx)(∫abg(x)2dx)(\int_a^bf(x)g(x)dx)^2 \le (\int_a^b f(x)^2 dx)(\int_a^b g(x)^2 dx)$ )
$KL(P∥Q)=EQ[(1+r(x))ln(1+r(x))]=EQ[(1+r(x))ln(1+r(x))−r(x)]≥12EQ[r(x)21+r(x)/3]，由上面的引理=12EQ[r(x)21+r(x)/3]EQ[1+r(x)/3],EQ[1+r(x)/3]=1由Cauchy-Schwarz不等式≥12EQ2∣r(x)∣=12(∑x∣p(x)−q(x)∣)2\begin{align*} KL(P \parallel Q) &= \mathbb E_Q[(1+r(x))ln(1+r(x))] \\ &= \mathbb E_Q[(1+r(x))ln(1+r(x))-r(x)] \\ &\ge \frac{1}{2} \mathbb E_Q[\frac{r(x)^2}{1+r(x)/3}] \text{，由上面的引理}\\ &= \frac{1}{2} \mathbb E_Q[\frac{r(x)^2}{1+r(x)/3}] \mathbb E_Q[1+r(x)/3] , \mathbb E_Q[1+r(x)/3]=1 \text{由Cauchy-Schwarz不等式}\\ &\ge \frac{1}{2} \mathbb E^2_Q|r(x)| \\ &= \frac{1}{2}(\sum_x |p(x)-q(x)|)^2 \\ \end{align*}$

Fannes-Audenaert 不等式

对于所有迹范数距离为 $T$ 的 $d$ 维量子态 $ρ\rho$ 和 $σ\sigma$ ，有： $∣S(ρ)−S(σ)∣≤Tlog⁡2(d−1)+H((T,1−T)).|S(\rho) - S(\sigma)| \leq T \log_2(d-1) + H((T, 1-T)).$
事实上，从这个界的构造过程可以看出，不存在仅利用 $T$ 和 $d$ 的信息就能得到的比它更紧的界。
为了证明对于任意 $T$ 和 $d$ 值，这个界都是紧的，我们只需指出以下一对（可交换的）量子态能够达到这个界：

$\rho = \text{Diag}(1-T, T/(d-1), \dots, T/(d-1)) $
$\sigma = \text{Diag}(1, 0, \dots, 0). $

术语说明:

$Diag(a1,a2,…,ad)\text{Diag}(a_1,a_2,\dots,a_d)$ ：对角矩阵，对角元依次为 $a1,a2,…,ada_1,a_2,\dots,a_d$
$H ((p, 1 - p))$ ：二元熵函数，即 $H_b(p) = -p\log_2 p - (1-p)\log_2(1-p)$
迹范数距离 $T$ ：对于两个d维密度矩阵(\rho)和(\sigma)，它们的迹范数距离定义为 $T(ρ,σ)=12∥ρ−σ∥1T(\rho,\sigma) = \frac{1}{2}\|\rho-\sigma\|_1$ ,由于密度矩阵是厄米矩阵，(\rho - \sigma) 也是厄米矩阵，此时迹范数等于其特征值的绝对值之和 $T(ρ,σ)=12∥ρ−σ∥1=∑i=1d∣λi∣T(\rho,\sigma) = \frac{1}{2}\|\rho-\sigma\|_1=\sum_{i=1}^d|\lambda_i|$ ,(\lambda_i) 是 (\rho - \sigma) 的所有特征值

2.5 引理6：条件熵的连续性（Continuity of Conditional Entropy）

设 $P$ 和 $Q$ 为有限积字母集 $\times Y$ 上的分布，且KL散度 $KL(P∥Q)≤δ\text{KL}(P\parallel Q) \le \delta$ 。则存在函数 $gX,Y(δ)g_{X,Y}(\delta)$ ，满足当 $δ→0\delta \to 0$ 时 $gX,Y(δ)→0g_{X,Y}(\delta) \to 0$ ，使得 $∣HP(Y∣X)−HQ(Y∣X)∣≤gX,Y(δ)|H_P(Y \mid X) - H_Q(Y \mid X)| \le g_{X,Y}(\delta)$ 等价地，对任意 $ε>0\varepsilon > 0$ ，均存在 $δ>0\delta > 0$ ，满足 $∣HP(Y∣X)−HQ(Y∣X)∣≤ε\text{KL}(P\parallel Q) \le \delta \implies |H_P(Y \mid X) - H_Q(Y \mid X)| \le \varepsilon$

2.6 引理7：条件互信息的连续性(Continuity of Conditional Mutual Information)

设 $r$ 与 $pθp_\theta$ 为定义在有限乘积字母集 $\times C_1 \times \dots \times C_K \times A$ 上的分布，且给定 $\in \{1,2,\dots,K\}$ 。
若 $KL(r∥pθ)≤δ\text{KL}(r \parallel p_\theta) \le \delta$ ，则存在函数 $Gk(δ)G_k(\delta)$ ，满足当 $δ→0\delta \to 0$ 时 $Gk(δ)→0G_k(\delta) \to 0$ ，使得：
$∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤Gk(δ)|I_r(A; C_{\le k} \mid Q) - I_{p_\theta}(A; C_{\le k} \mid Q)| \le G_k(\delta)$
其中右侧的互信息与熵均基于分布 $pθp_\theta$ 计算，左侧则基于分布 $r$ 计算。
等价于，对任意 $ε>0\varepsilon > 0$ ，均存在 $δ>0\delta > 0$ ，使得：
$∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤ε\text{KL}(r \parallel p_\theta) \le \delta \implies |I_r(A; C_{\le k} \mid Q) - I_{p_\theta}(A; C_{\le k} \mid Q)| \le \varepsilon$

定理2说明，如果r存在逐步的信息量，那么在MLE训练下的模型会继承这种内在属性。

4.4 SIA失效的情况

如果训练没有做到：

生成满足SIA的 $p∈Πp\in \Pi$
模型分布 $pθp_\theta$ 没有忠实逼近p。

Entropy-based diagnostics are not theoretically justified if training fails to induce an answer-compatible distribution p ∈ Π that satisfies SIA and that pθ faithfully approximates.

典型的情况是：即使模型得出的最终答案是错的，模型的条件答案熵依然随着推理过程不断下降。形式上：
模型自己内部视角的互信息 $Ipθ(A;C≤k∣Q)>0I_{p_\theta}(A; C_{\le k} \mid Q) >0$ ,但真实耦合视角的互信息 $Ip(A;C≤k∣Q)→0I_p (A; C_{\le k} \mid Q) \to 0$

4.5 推导过程总结

4.5.1 提出逐步信息量假设SIA

由Lemma1,信息增益与互信息等价 $E[Δk]=I(A;Ck∣Q,C<k)=H(A∣Q,C<k)−H(A∣Q,C≤k)\mathbb{E}[\Delta_k]= I(A;C_k \mid Q,C_{<k})= H(A \mid Q,C_{<k}) - H(A \mid Q,C_{\le k})$

$Δk(q,a,c1:k)=h(a∣q,c<k)−h(a∣q,c≤k)=log⁡p(a∣q,c≤k)p(a∣q,c<k)\Delta_k(q,a,c_{1:k}) = h(a \mid q,c_{<k}) - h(a \mid q,c_{\le k})= \log\frac{p(a\mid q,c_{\le k})}{p(a\mid q,c_{<k})}$
- 含义：单次增益的平均值=单步互信息，连接个体行为与群体统计，将token级别的信息增益与宏观的信息论度量联系起来。
基于Lemma1推导，将t=1到k累加起来，利用互信息链式法则，得到Proposition 1： $Hp(A∣Q,C1:k)=Hp(A∣Q)−Ip(A;C1:k∣Q)H_p(A \mid Q,C_{1:k}) = H_p(A \mid Q) - I_p(A;C_{1:k} \mid Q)$
- 含义：在概率分布p下，条件答案熵并非单纯的内部不确定性度量，它是一个进度变量，可反映已积累的关于正确答案的信息量，条件熵的下降完全等于累积的互信息增加。
提出SIA假设：存在一个联合分布 $\in \Pi$ ,使得： $p∈ΠI_p(A;C_{1:k} \mid Q) \ge \epsilon_k>0,\quad \forall k\ge1,\ p\in\Pi$
- 含义：当且仅当 SIA 成立时(推理前缀 $C_{1:k}$ 对真实答案A 含有正的互信息)，推理过程中的条件熵下降才是有效的，是推理在持续累积真实答案的信息，模型在向正确答案收敛。
模型内部熵来自 (p_\theta)，真实答案来自 (p^\star)。为了把二者放在同一个概率空间里，论文定义一族联合分布： $p(C1:K∣Q)=pθ(C1:K∣Q)}\Pi = \{p(Q,C_{1:K},A) \mid p(Q,A)=p^*(Q,A),\ p(C_{1:K} \mid Q)=p_\theta(C_{1:K} \mid Q)\}$
同时提出了Theorem 1(Entropy constrains achievable accuracy):对误分类概率 $P_e^{(k)}$ , $Pe(k)≥Hp(A∣Q,C1:k)−log⁡2log⁡(∣A∣−1)P_e^{(k)} \ge \frac{H_p(A \mid Q,C_{1:k}) - \log2}{\log(|\mathcal{A}|-1)}$
- 含义：推理链要想可靠正确，其前缀的条件答案熵必须足够低

4.5.2 证明逐步信息量假设SIA

证明如果数据分布满足SIA，MLE训练能让模型也满足SIA

前提：人类推理轨迹满足SIA
基于认知科学（Futrell & Hahn, 2025），受限于认知资源，人类生成的序列会最小化预测信息，导致信息渐进累积。因此人类生成的数据分布 $r$ 满足 $Ir(A;C1:k∣Q)≥ϵk>0I_r(A; C_{1:k}|Q) \ge \epsilon_k > 0$ 。
由Lemma 2(MLE=最小KL散度) $L(θ)=H(r)+KL(r∥pθ)\mathcal{L}(\theta) = H(r) + KL(r \parallel p_\theta)$
- 含义：最小化 $L(θ)\mathcal{L}(\theta)$ ，等价于最小化 $\parallel p_\theta)$ ，即推动 $pθp_\theta$ 逼近 $r$ 。
由Lemma 3, 4
- Lemma 3(联合条件KL散度的分解) $KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))=KL(r(C1:K∣Q)∥pθ(C1:K∣Q))+Er(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]KL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) = KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) + \mathbb{E}_{r(C_{1:K}\mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))]$ 含义：联合KL散度 = 边缘KL散度（推理轨迹） + 条件KL散度（给定轨迹下的答案）。
- Lemma 4（MLE蕴含边缘与条件对齐） ${KL(r(C1:K∣Q)∥pθ(C1:K∣Q))≤δEr(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]≤δKL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) \le \delta \implies \begin{cases} KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) \le \delta \\ \mathbb{E}_{r(C_{1:K} \mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))] \le \delta \end{cases}$
- 含义：如果 $pθp_\theta$ 在联合分布上接近 $r$ ，那么它不仅在推理轨迹的分布上接近，也在给定推理轨迹下的答案分布上接近。
由Lemma 5, 6, 7证明：熵与互信息的连续性，这是从“分布接近”推导“信息量接近”的关键。
- Lemma 5 (熵的连续性)：设 $P$ 与 $Q$ 为有限字母集 $X$ 上的概率分布，满足 $KL(P∥Q)≤δ\mathrm{KL}(P\|Q) \le \delta$ ，则存在映射 $fX:[0,∞)→[0,∞)f_X:[0,\infty)\to[0,\infty)$ ，满足 $δ→0\delta\to0$ 时 $fX(δ)→0f_X(\delta)\to0$ ，使得： $∣H(P)−H(Q)∣≤fX(δ)|H(P)-H(Q)|\le f_X(\delta)$
- Lemma 6 (条件熵的连续性)：设 $P$ 和 $Q$ 为有限积字母集 $\times Y$ 上的分布，满足 $KL(P∥Q)≤δ\text{KL}(P\parallel Q) \le \delta$ 。则存在函数 $gX,Y(δ)g_{X,Y}(\delta)$ ，满足当 $δ→0\delta \to 0$ 时 $gX,Y(δ)→0g_{X,Y}(\delta) \to 0$ ，使得 $∣HP(Y∣X)−HQ(Y∣X)∣≤gX,Y(δ)|H_P(Y \mid X) - H_Q(Y \mid X)| \le g_{X,Y}(\delta)$
- Lemma 7 (条件互信息的连续性)：设 $r$ 与 $pθp_\theta$ 为定义在有限乘积字母集 $\times C_1 \times \dots \times C_K \times A$ 上的分布，且给定 $\in \{1,2,\dots,K\}$ 。若 $KL(r∥pθ)≤δ\text{KL}(r \parallel p_\theta) \le \delta$ ，则存在函数 $Gk(δ)G_k(\delta)$ ，满足当 $δ→0\delta \to 0$ 时 $Gk(δ)→0G_k(\delta) \to 0$ ，使得： $∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤Gk(δ)|I_r(A; C_{\le k} \mid Q) - I_{p_\theta}(A; C_{\le k} \mid Q)| \le G_k(\delta)$ 其中右侧的互信息与熵均基于分布 $pθp_\theta$ 计算，左侧则基于分布 $r$ 计算。
最后得出Theorem 2(Transfer of internal stepwise informativeness to the model)
推导：
1. 已知数据分布满足 SIA： $Ir(A;C≤k∣Q)≥ϵkI_r(A; C_{\le k} | Q) \ge \epsilon_k$ 。
2. 已知模型训练使分布接近： $\| p_\theta) \le \delta$ 。
3. 由 Lemma 7 连续性： $∣Ir−Ipθ∣≤Gk(δ)|I_r - I_{p_\theta}| \le G_k(\delta)$ 。
4. 结合得： $Ipθ≥Ir−Gk(δ)≥ϵk−Gk(δ)I_{p_\theta} \ge I_r - G_k(\delta) \ge \epsilon_k - G_k(\delta)$ 。
5. 选择足够小的 $δ\delta$ 使得 $Gk(δ)<ϵk/2G_k(\delta) < \epsilon_k / 2$ ，则 $Ipθ≥ϵk/2>0I_{p_\theta} \ge \epsilon_k / 2 > 0$ 。
含义：如果人类数据具有逐步信息性，且模型完美拟合数据，那么模型的内部分布也必然具备逐步信息性（满足SIA）。

参考链接

https://arxiv.org/abs/2604.06192
https://gaomj.cn/pinsker-inequality/
https://www.hellenicaworld.com/Science/Mathematics/en/FannesAudenaertInequality.html
https://arxiv.org/pdf/quant-ph/0610146