标题:The Stepwise Informativeness Assumption:Why are Entropy Dynamics and Reasoning Correlated in LLMs?
分步信息假设SIA:熵的动态情况和LLM的推理为什么相关?
- arXiv:2604.06192v
背景
- 目前有很多工作用各种基于熵的信号来研究LLM的推理过程,但大多是从经验的角度出发的。一个关键问题是:为什么依据模型预测分布来定义的内部的熵动态情况(internal entropy dynamics),会和基于真实标准答案来定义的外部正确性(external correctness)如此强相关?。

方法
一、基础定义(2.1–2.4 节:模型、分布、信息论基础)
1. 自回归分解(定义1)
给定 token 序列:X1:K=(X1,…,XK)X_{1:K} = (X_1, \dots, X_K)X1:K=(X1,…,XK),对于参数为θ\thetaθ的语言模型,一个完整序列的概率可按自回归方式分解为:
pθ(X1:K)=∏k=1Kpθ(Xk∣X<k)p_\theta(X_{1:K}) = \prod_{k=1}^K p_\theta(X_k \mid X_{<k})pθ(X1:K)=k=1∏Kpθ(Xk∣X<k)
其中:X<k=X1:k−1X_{<k} = X_{1:k-1}X<k=X1:k−1,对于下一个 token:pθ(Xk+1∣X1:k)p_\theta(X_{k+1} \mid X_{1:k})pθ(Xk+1∣X1:k)就是 next-token 预测概率。
2. 自回归语言模型的训练目标(定义2)
训练预料集D为N个KiK_iKi长度的token序列:D={X1:Ki(i)}i=1N\mathcal{D} = \{ X^{(i)}_{1:K_i} \}_{i=1}^ND={X1:Ki(i)}i=1N
对于参数为θ\thetaθ的语言模型,最大似然训练目标:
θ∗=argmaxθ∑i=1Nlogpθ(X1:Ki(i))\theta^* = \arg\max_{\theta} \sum_{i=1}^N \log p_\theta(X^{(i)}_{1:K_i})θ∗=argθmaxi=1∑Nlogpθ(X1:Ki(i))
在实际应用中,利用上面的自回归分解:
logpθ(X1:Ki(i))=∑k=1Kilogpθ(Xk(i)∣X<k(i))\log p_\theta(X^{(i)}_{1:K_i}) = \sum_{k=1}^{K_i} \log p_\theta(X^{(i)}_k \mid X^{(i)}_{<k})logpθ(X1:Ki(i))=∑k=1Kilogpθ(Xk(i)∣X<k(i))
该目标通过最小化交叉熵损失函数 LCE=−∑i=1N∑k=1Kilogpθ(Xk(i)∣X<k(i))L_{CE} = -\sum_{i=1}^{N} \sum_{k=1}^{K_i} \log p_\theta(X_k^{(i)} \mid X_{<k}^{(i)})LCE=−i=1∑Nk=1∑Kilogpθ(Xk(i)∣X<k(i)) 来实现。这个目标鼓励模型让未来 token 在过去上下文下更可预测。
- 交叉熵:基础定义(两个概率分布):给定真实分布 p(x)p(x)p(x)、模型预测分布 q(x)q(x)q(x),交叉熵定义为:
H(p,q)=−∑xp(x)logq(x)H(p, q) = -\sum_{x} p(x) \log q(x)H(p,q)=−x∑p(x)logq(x)
- p(x)p(x)p(x):真实数据的概率分布(固定,不可改)
- q(x)q(x)q(x):模型输出的概率分布(可训练、可优化)
- 含义:
- 熵:衡量一个分布自身的不确定;
- 交叉:用模型qqq的概率去算真实ppp的不确定——跨了两个分布,所以叫交叉熵。
H(p,q)=H(p)+KL(p∥q)H(p, q) = H(p) + KL(p \parallel q)H(p,q)=H(p)+KL(p∥q)交叉熵 = 真实分布的熵(常数) + 真实与模型的差距。- LLM训练时,对于真实分布p(x)p(x)p(x):真实token Xk(i)X_k^{(i)}Xk(i):p=1p=1p=1,其他所有token:p=0p=0p=0
代入标准交叉熵公式,求和只剩真实token那一项:H(p,q)=−1⋅logq(Xk(i))+∑其他0⋅logq(x)=−logq(Xk(i))H(p, q) = -1\cdot\log q(X_k^{(i)}) + \sum_{\text{其他}}0\cdot\log q(x) = -\log q(X_k^{(i)})H(p,q)=−1⋅logq(Xk(i))+其他∑0⋅logq(x)=−logq(Xk(i))
- 这里的LCEL_{CE}LCE:把所有样本、所有token的简化交叉熵求和:LCE=−∑i=1N∑k=1Kilogpθ(Xk(i)∣X<k(i))L_{CE} = -\sum_{i=1}^N \sum_{k=1}^{K_i} \log p_\theta(X_k^{(i)} \mid X_{<k}^{(i)})LCE=−i=1∑Nk=1∑Kilogpθ(Xk(i)∣X<k(i))
3. 三大核心分布(定义3–5)
- 真实问答分布 p∗(Q,A)p^*(Q,A)p∗(Q,A):外部标准答案分布,固定不变。
- 人类推理分布 r(Q,C1:K,A)r(Q,C_{1:K},A)r(Q,C1:K,A):人类写「问题+推理+答案」的分布。
- 模型推理分布 pθ(C1:K∣Q)p_\theta(C_{1:K} \mid Q)pθ(C1:K∣Q)、pθ(A∣Q,C1:K)p_\theta(A \mid Q,C_{1:K})pθ(A∣Q,C1:K):模型生成推理、预测答案的分布。
3.1 真实答案分布
问题为:Q∈QQ \in \mathcal{Q}Q∈Q,答案为:A∈AA \in \mathcal{A}A∈A
真实分布:(Q,A)∼p∗(Q,A)(Q, A) \sim p^{*}(Q, A)(Q,A)∼p∗(Q,A)
真实后验:p∗(A∣Q)p^{*}(A \mid Q)p∗(A∣Q)
所有“正确性”都是相对于这个真实分布定义的。
3.2 人类 CoT 数据生成分布
在人类标注推理数据中,每个样本包含:(Q,C1:K,A)(Q, C_{1:K}, A)(Q,C1:K,A)
- QQQ:问题;
- C1:KC_{1:K}C1:K:人类写出的思维链;
- AAA:正确答案。
论文定义经验联合分布:
r(Q,C1:K,A)=p∗(Q,A) r(C1:K,A∣Q)
r(Q, C_{1:K}, A) = p^{*}(Q, A)\, r(C_{1:K}, A \mid Q)
r(Q,C1:K,A)=p∗(Q,A)r(C1:K,A∣Q)
其中p⋆(Q,A)p^\star(Q, A)p⋆(Q,A)为真实问答分布,r(C1:K,A∣Q)r(C_{1:K}, A \mid Q)r(C1:K,A∣Q)用于描述人工标注的在解答问题时生成思维链轨迹的过程。
3.3 模型预测分布
模型生成推理链:C1:K=(C1,…,CK)C_{1:K} = (C_1, \dots, C_K)C1:K=(C1,…,CK)
模型在完整推理链上构建的自回归分布:pθ(C1:K∣Q)=∏k=1Kpθ(Ck∣Q,C<k)p_\theta(C_{1:K} \mid Q) = \prod_{k=1}^K p_\theta(C_k \mid Q, C_{<k})pθ(C1:K∣Q)=k=1∏Kpθ(Ck∣Q,C<k)
给定完整推理链后,模型生成答案序列:A=(A1,…,AT)A = (A_1, \dots, A_T)A=(A1,…,AT)
在给定推理链的条件下,在答案序列上构建的自回归分布:pθ(A∣Q,C1:K)=∏t=1Tpθ(At∣Q,C1:K,A<t)p_\theta(A \mid Q, C_{1:K}) = \prod_{t=1}^T p_\theta(A_t \mid Q, C_{1:K}, A_{<t})pθ(A∣Q,C1:K)=t=1∏Tpθ(At∣Q,C1:K,A<t)
4. 信息论基础定义
4.1 熵
对于离散随机变量 X∼p(x)X \sim p(x)X∼p(x),熵定义为:
H(X)=−∑x∈Xp(x)logp(x)
H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x)
H(X)=−x∈X∑p(x)logp(x)
熵表示平均不确定性。
4.2 条件熵
含义:对于x∈X,y∈Yx \in \mathcal{X}, y \in \mathcal{Y}x∈X,y∈Y,已知XXX时,YYY的剩余不确定性 H(Y∣X)H(Y \mid X)H(Y∣X)。
H(Y∣X)=−∑x∈X,y∈Yp(x,y)logp(x,y)p(x)H(Y \mid X) = -\sum_{x \in \mathcal{X}, y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)}H(Y∣X)=−x∈X,y∈Y∑p(x,y)logp(x)p(x,y)
因为:p(x,y)p(x)=p(y∣x)\frac{p(x, y)}{p(x)} = p(y \mid x)p(x)p(x,y)=p(y∣x)
所以也可写成:H(Y∣X)=−∑x,yp(x,y)logp(y∣x)H(Y \mid X) = -\sum_{x, y} p(x, y) \log p(y \mid x)H(Y∣X)=−x,y∑p(x,y)logp(y∣x)
4.3 互信息
I(X;Y)=∑x,yp(x,y)logp(x,y)p(x)p(y)
I(X; Y) = \sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)p(y)}
I(X;Y)=x,y∑p(x,y)logp(x)p(y)p(x,y)
互信息 I(X;Y)I (X;Y)I(X;Y):衡量随机变量 XXX 和YYY 共享多少信息。知道 X,对 Y 的不确定性减少了多少,反之亦然。XY越相关,互信息越大,完全独立,互信息为0。
例如:I(A;Ck∣Q,C<k)I(A;C_k|Q,C_{<k})I(A;Ck∣Q,C<k) 在已知问题 Q 和前面所有推理步骤 C<k 的前提下,当前这一步 Cₖ,给真实答案 A 提供了多少新信息。>0则这一步有用,=0没用,<0误导。
有等价形式:I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)I(X; Y) = H(X) - H(X \mid Y) = H(Y) - H(Y \mid X)I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)
条件互信息为:I(X;Y∣Z)=H(X∣Z)−H(X∣Y,Z)I(X; Y \mid Z) = H(X \mid Z) - H(X \mid Y, Z)I(X;Y∣Z)=H(X∣Z)−H(X∣Y,Z)
- (H(Y)):完全不了解X时,对Y的总不确定性(熵越大,越难猜准Y);
- (H(Y|X)):已经知道X的取值后,你对Y剩余的不确定性;
- 两者的差值(H(Y)-H(Y|X)):就是获知X之后,你对Y减少的不确定性,也就是X能分享给Y的信息量;
二、核心自定义定义&&关键引理、命题、定理
4.1. Stepwise information gain 分步信息增益
1. 点式惊讶度(定义9 Pointwise surprisal)
h(a∣q,c<k)=−logp(a∣q,c<k)h(a \mid q,c_{<k}) = -\log p(a \mid q,c_{<k})h(a∣q,c<k)=−logp(a∣q,c<k)
- 含义:单条样本中,在看到第 (k) 步之前的前缀时,真实答案 (a) 的 surprisal;已知前缀时,真实答案aaa的个体不确定性(区别于熵的平均),熵的单样本版本,去掉求和。
2. 单步信息增益 Δk\Delta_kΔk(定义10 Information gain)
Δk(q,a,c1:k)=h(a∣q,c<k)−h(a∣q,c≤k)=−logp(a∣q,c<k)+logp(a∣q,c≤k)=logp(a∣q,c≤k)p(a∣q,c<k) \begin{align*} \Delta_k(q,a,c_{1:k}) &= h(a \mid q,c_{<k}) - h(a \mid q,c_{\le k})\\ &= -\log p(a\mid q,c_{<k}) + \log p(a\mid q,c_{\le k}) \\ &= \log\frac{p(a\mid q,c_{\le k})}{p(a\mid q,c_{<k})} \\ \end{align*} Δk(q,a,c1:k)=h(a∣q,c<k)−h(a∣q,c≤k)=−logp(a∣q,c<k)+logp(a∣q,c≤k)=logp(a∣q,c<k)p(a∣q,c≤k)
- 含义:单条推理第kkk步的信息增益:
- Δk>0;p(a∣q,c≤k)>p(a∣q,c<k)\Delta_k>0; p(a\mid q,c_{\le k})>p(a\mid q,c_{<k})Δk>0;p(a∣q,c≤k)>p(a∣q,c<k):这一步有效,让答案更确定;
- Δk<0;p(a∣q,c≤k)<p(a∣q,c<k)\Delta_k<0; p(a\mid q,c_{\le k})<p(a\mid q,c_{<k})Δk<0;p(a∣q,c≤k)<p(a∣q,c<k):这一步误导,让答案更不确定。
- 走这一步前的惊讶度 − 走后的惊讶度,差值即增益。
3. 引理1:E[Δk]=\mathbb{E}[\Delta_k]=E[Δk]=条件互信息
E[Δk]=∑q,a,c1:kp(q,a,c1:k)logp(a∣q,c≤k)p(a∣q,c<k);把 c1:k 拆成 c<k,ck=∑q,c<k,ck,ap(q,c<k,ck,a)logp(a∣q,c<k,ck)p(a∣q,c<k)=∑q,c<kp(q,c<k)∑a,ckp(a,ck∣q,c<k)logp(a,ck∣q,c<k)p(a∣q,c<k)p(ck∣q,c<k)=∑q,c<kp(q,c<k)I(A;Ck∣Q=q,C<k=c<k)=I(A;Ck∣Q,C<k)=H(A∣Q,C<k)−H(A∣Q,C≤k)
\begin{align}
\mathbb{E}[\Delta_k] &= \sum_{q,a,c_{1:k}}p(q,a,c_{1:k})\log\frac{p(a\mid q,c_{\le k})}{p(a\mid q,c_{<k})} ;\text{把 \(c_{1:k}\) 拆成 \(c_{<k},c_k\)}\\
&= \sum_{q,c_{<k},c_k,a}p(q,c_{<k},c_k,a)\log\frac{p(a\mid q,c_{<k},c_k)}{p(a\mid q,c_{<k})} \\
&= \sum_{q,c_{<k}}p(q,c_{<k})\sum_{a,c_k}p(a,c_k\mid q,c_{<k})\log\frac{p(a,c_k\mid q,c_{<k})}{p(a\mid q,c_{<k})p(c_k\mid q,c_{<k})}\\
&= \sum_{q,c_{<k}}p(q,c_{<k}) I(A;C_k\mid Q=q,C_{<k}=c_{<k})\\
&= I(A;C_k \mid Q,C_{<k}) \\
&= H(A \mid Q,C_{<k}) - H(A \mid Q,C_{\le k})\\
\end{align}
E[Δk]=q,a,c1:k∑p(q,a,c1:k)logp(a∣q,c<k)p(a∣q,c≤k);把 c1:k 拆成 c<k,ck=q,c<k,ck,a∑p(q,c<k,ck,a)logp(a∣q,c<k)p(a∣q,c<k,ck)=q,c<k∑p(q,c<k)a,ck∑p(a,ck∣q,c<k)logp(a∣q,c<k)p(ck∣q,c<k)p(a,ck∣q,c<k)=q,c<k∑p(q,c<k)I(A;Ck∣Q=q,C<k=c<k)=I(A;Ck∣Q,C<k)=H(A∣Q,C<k)−H(A∣Q,C≤k)
E[Δk]=I(A;Ck∣Q,C<k)=H(A∣Q,C<k)−H(A∣Q,C≤k)\mathbb{E}[\Delta_k]= I(A;C_k \mid Q,C_{<k})= H(A \mid Q,C_{<k}) - H(A \mid Q,C_{\le k})E[Δk]=I(A;Ck∣Q,C<k)=H(A∣Q,C<k)−H(A∣Q,C≤k)
- 含义:单次增益的平均值=单步互信息,连接个体行为与群体统计。
4. 累积信息增益 GkG_kGk(定义11 Cumulative gain)
Gk=∑t=1kΔt=∑t=1k[h(a∣q,c<t)−h(a∣q,c≤t)]=[h(a∣q,c<1)−h(a∣q,c≤1)]+[h(a∣q,c<2)−h(a∣q,c≤2)]+[h(a∣q,c<3)−h(a∣q,c≤3)]+⋯+[h(a∣q,c<k)−h(a∣q,c≤k)]=h(a∣q)⏟t=1, c<1−h(a∣q,c≤1)+h(a∣q,c<2)−h(a∣q,c≤2)+h(a∣q,c<3)−h(a∣q,c≤3)+⋯+h(a∣q,c<k)−h(a∣q,c≤k)=h(a∣q)−h(a∣q,c≤k)=−logp(a∣q)+logp(a∣q,c≤k)=logp(a∣q,c≤k)p(a∣q) \begin{align*} G_k &= \sum_{t=1}^k \Delta_t \\ &= \sum_{t=1}^k [h(a\mid q,c_{<t})-h(a\mid q,c_{\le t})] \\ &= \left[ h(a \mid q, c_{<1}) - h(a \mid q, c_{\le 1}) \right] + \left[ h(a \mid q, c_{<2}) - h(a \mid q, c_{\le 2}) \right] + \left[ h(a \mid q, c_{<3}) - h(a \mid q, c_{\le 3}) \right] + \dots + \left[ h(a \mid q, c_{<k}) - h(a \mid q, c_{\le k}) \right] \\ &= \underbrace{h(a \mid q)}_{t=1,\ c_{<1}} - \cancel{h(a \mid q, c_{\le 1})} + \cancel{h(a \mid q, c_{<2})} - \cancel{h(a \mid q, c_{\le 2})} + \cancel{h(a \mid q, c_{<3})} - \cancel{h(a \mid q, c_{\le 3})} + \dots + \cancel{h(a \mid q, c_{<k})} - h(a \mid q, c_{\le k}) \\ &= h(a \mid q) - h(a \mid q,c_{\le k}) \\ &= -\log p(a\mid q)+\log p(a\mid q,c_{\le k}) \\ &= \log\frac{p(a\mid q,c_{\le k})}{p(a\mid q)} \\ \end{align*} Gk=t=1∑kΔt=t=1∑k[h(a∣q,c<t)−h(a∣q,c≤t)]=[h(a∣q,c<1)−h(a∣q,c≤1)]+[h(a∣q,c<2)−h(a∣q,c≤2)]+[h(a∣q,c<3)−h(a∣q,c≤3)]+⋯+[h(a∣q,c<k)−h(a∣q,c≤k)]=t=1, c<1h(a∣q)−h(a∣q,c≤1)+h(a∣q,c<2)−h(a∣q,c≤2)+h(a∣q,c<3)−h(a∣q,c≤3)+⋯+h(a∣q,c<k)−h(a∣q,c≤k)=h(a∣q)−h(a∣q,c≤k)=−logp(a∣q)+logp(a∣q,c≤k)=logp(a∣q)p(a∣q,c≤k)
Gk=∑t=1kΔt=h(a∣q)−h(a∣q,c≤k)G_k = \sum_{t=1}^k \Delta_t = h(a \mid q) - h(a \mid q,c_{\le k}) Gk=t=1∑kΔt=h(a∣q)−h(a∣q,c≤k)
含义:
- h(a∣q)h(a \mid q)h(a∣q) :只有问题 ( q ) 时,答案 ( a ) 的初始惊讶度(初始不确定性)
- $ h(a \mid q, c_{\le k})$:经过 ( k ) 步推理后,答案 ( a ) 的剩余惊讶度(剩余不确定性)
- 两者的差,就是前 ( k ) 步推理总共消除了多少不确定性,即单条样本累积的信息增益,推理前缀 C1:kC_{1:k}C1:k 让答案 aaa 相比初始问题 q变得多可预测。
期望形式:
E[Gk]=E[h(a∣q)−h(a∣q,c≤k)]=E[−logp(a∣q)]−E[−logp(a∣q,c≤k)]=H(A∣Q)−H(A∣Q,C1:k)=I(A;C1:k∣Q)=∑t=1kI(A;Ct∣Q,C<t)\begin{align*}
\mathbb{E}[G_k] &= \mathbb{E}\left[ h(a \mid q) - h(a \mid q, c_{\le k}) \right] \\
&= \mathbb{E}\left[ -\log p(a \mid q) \right] - \mathbb{E}\left[ -\log p(a \mid q, c_{\le k}) \right] \\
&= H(A \mid Q) - H(A \mid Q, C_{1:k}) \\
&= I(A; C_{1:k} \mid Q) \\
&= \sum_{t=1}^k I(A; C_t \mid Q, C_{<t}) \\
\end{align*}E[Gk]=E[h(a∣q)−h(a∣q,c≤k)]=E[−logp(a∣q)]−E[−logp(a∣q,c≤k)]=H(A∣Q)−H(A∣Q,C1:k)=I(A;C1:k∣Q)=t=1∑kI(A;Ct∣Q,C<t)
- 含义:前kkk步累计信息增益,期望是前缀与答案的互信息。
4.2. Stepwise Informativeness Assumption 分步信息假设
1. 耦合分布 (\Pi):连接模型轨迹和真实答案
模型内部熵来自 (p_\theta),真实答案来自 (p^\star)。为了把二者放在同一个概率空间里,论文定义一族联合分布:
Π={p(Q,C1:K,A)∣p(Q,A)=p∗(Q,A), p(C1:K∣Q)=pθ(C1:K∣Q)}\Pi = \{p(Q,C_{1:K},A) \mid p(Q,A)=p^*(Q,A),\ p(C_{1:K} \mid Q)=p_\theta(C_{1:K} \mid Q)\}Π={p(Q,C1:K,A)∣p(Q,A)=p∗(Q,A), p(C1:K∣Q)=pθ(C1:K∣Q)}
- 含义:用一个联合分布把“外部正确性”和“内部推理轨迹”连接起来。
任意 p∈Πp\in\Pip∈Π 都必须满足两点:
- 问题和真实答案边缘分布正确:p(Q,A)=p⋆(Q,A)p(Q,A)=p^\star(Q,A)p(Q,A)=p⋆(Q,A)
- 推理链的条件分布等于模型生成分布:p(C1:K∣Q)=pθ(C1:K∣Q)p(C_{1:K}\mid Q)=p_\theta(C_{1:K}\mid Q)p(C1:K∣Q)=pθ(C1:K∣Q)
- 但是它不要求:A⊥C1:K∣QA\perp C_{1:K}\mid QA⊥C1:K∣Q
“This avoids imposing any conditional independence between A and C1:K given Q.”
真实答案和模型推理链之间可以存在耦合。
2. 命题1:条件熵=累积信息 Conditional answer entropy as cumulative information
Hp(A∣Q,C1:k)=Hp(A∣Q)−Ip(A;C1:k∣Q)H_p(A \mid Q,C_{1:k}) = H_p(A \mid Q) - I_p(A;C_{1:k} \mid Q)Hp(A∣Q,C1:k)=Hp(A∣Q)−Ip(A;C1:k∣Q)
- 含义:在概率分布p下,条件答案熵并非单纯的内部不确定性度量,它是一个进度变量,可反映已积累的关于正确答案的信息量。
3. 分步信息假设 SIA(假设1)
Ip(A;C1:k∣Q)≥ϵk>0,∀k≥1, p∈ΠI_p(A;C_{1:k} \mid Q) \ge \epsilon_k>0,\quad \forall k\ge1,\ p\in\PiIp(A;C1:k∣Q)≥ϵk>0,∀k≥1, p∈Π
- 含义:在某个答案一致的联合分布p下,推理前缀 C1:kC_{1:k}C1:k对真实答案A 含有正的互信息。
- 需要注意的是:
- SIA 是关于前缀的,不是每个 token 都必须有用
- SIA 是关于联合耦合p,不是单独关于 pθp_θpθ
- 序列{ϵk}\{ϵ_k\}{ϵk}用于量化与答案相关的累计信息增益,根据命题1,Hp(A∣Q,C1:k)H_p(A \mid Q,C_{1:k})Hp(A∣Q,C1:k)则反映模型是否在朝着正确答案的方向演进,即:SIA 下条件答案熵成为推理进展变量。
4. 定理1:熵约束推理准确率 Entropy constrains achievable accuracy
Pe(k)≥Hp(A∣Q,C1:k)−log2log(∣A∣−1)P_e^{(k)} \ge \frac{H_p(A \mid Q,C_{1:k}) - \log2}{\log(|\mathcal{A}|-1)}Pe(k)≥log(∣A∣−1)Hp(A∣Q,C1:k)−log2
设:
- A^k\widehat A_kAk,为基于 ((Q,C_{1:k})) 的 Bayes 最优预测器(选择给定条件下最大的概率的一类),即:A^k=argmaxap(a∣Q,C1:k)\widehat A_k=\arg\max_a p(a\mid Q,C_{1:k})Ak=argamaxp(a∣Q,C1:k)
- Pe(k)=Pr(A^k≠A)P_e^{(k)}=\Pr(\widehat A_k\ne A)Pe(k)=Pr(Ak=A),表示误分类概率
则:
Pe(k)≥Hp(A∣Q,C1:k)−log2log(∣A∣−1)P_e^{(k)}\ge\frac{H_p(A\mid Q,C_{1:k})-\log 2}{\log(|\mathcal A|-1)}Pe(k)≥log(∣A∣−1)Hp(A∣Q,C1:k)−log2
其中:∣A∣>2|\mathcal A|>2∣A∣>2
- 含义:
- 如果条件答案熵还很高,那么无论用什么预测器,错误率都不可能太低。
- 定理1给出了正确性的一个必要条件:一条推理链的正确性无法得到可靠保证,除非其前缀具备足够低的条件答案熵。
5. Early vs Late Information Gain
论文进一步讨论:
如果两个推理链最终积累的信息量相同,但是在推理轨迹的起始片段上,其中一条推理链的条件答案熵低于另一条,则在该片段全程范围内,其可实现误差的信息论下界严格更小。
- 更早实现熵值下降也能让更多token在低条件熵环境下生成,后续步骤受采样噪声或无效分支干扰而出错的概率更低。
- 由此得出一条用于甄别正确推理链的实操判定标准:
合格的推理链应当在受条件熵单调性约束倒逼之前,就早早锁定答案。
6. Saturation:饱和度
对于许多任务,从一条推理链能提取的答案相关信息是有限的,那么随着推理进行,条件熵H(A∣Q,C1:k)H(A\mid Q,C_{1:k})H(A∣Q,C1:k)会下降,到某个低值后,进一步下降空间很小,甚至会趋于平稳 plateau:
H(A∣Q,C1:k+1)≈H(A∣Q,C1:k)H(A\mid Q,C_{1:k+1}) \approx H(A\mid Q,C_{1:k})H(A∣Q,C1:k+1)≈H(A∣Q,C1:k)
- 额外的/另外的推理步骤也无法有效降低答案的不确定性。
- 达到平稳不足以证明正确,但一直不饱和,说明模型没有稳定收敛到答案,等同于不正确。
4.3. Why is SIA a reasonable assumption?
论文从两个方向解释:
- 人类推理轨迹本身具有逐步信息性;
- MLE / SFT / RL 会把这种结构转移到模型中。
1. 人类推理轨迹中的分步信息量
- 论文引用了一份研究的观点:Futrell & Hahn于2025年开展的近期研究表明,在受现实认知条件(记忆、注意力与信息处理能力有限)约束的前提下,能够最小化预测信息(即过去与未来间的互信息)的时序信号会形成一种特有结构:信息被拆解为近似相互独立的组成部分,且各部分以局部化、渐进式的形式呈现。由此生成的信息序列具备循序渐进、层层增益信息的特点,与自然语言的内在结构高度契合,同时有助于后续的序列预测工作。
- 人工编写的推理轨迹是这类序列信号的一种特例,额外具备一个特性:其后续内容包含正确答案。在相同约束条件下,前文片段会不断缩小合理接续内容与答案的可选范围。随着推理逐步推进,从整体上来看,正确答案的可预测性会不断提升。
- 从形式上定义,令C1:KC_{1:K}C1:K代表人类生成的思维链,AAA为标准答案。若推理轨迹能够最小化预测信息,则前缀C1:kC_{1:k}C1:k针对后续字符(包含答案AAA)承载的互信息会逐步递增。与之等价,在数据生成分布r(Q,C1:K,A)r(Q, C_{1:K}, A)r(Q,C1:K,A)下,条件答案熵Hr(A∣Q,C1:k)H_r(A \mid Q, C_{1:k})Hr(A∣Q,C1:k)的期望值随kkk增大而递减,这意味着前缀层面的互信息Ir(A;C1:k∣Q)I_r(A; C_{1:k} \mid Q)Ir(A;C1:k∣Q)持续升高。
data generating distribution指的生成全部观测数据的客观真实联合概率分布
- 关键在于,该论证并未假定人类会为保证正确性而优化中间步骤,也不认为人类在生成内容的过程中能够获取答案分布。分步信息性反而是序列受到通用认知约束后产生的结构性结果。
2. 最大似然训练下分布信息量的传递 TRANSFER OF STEPWISE INFORMATIVENESS UNDER MAXIMUM LIKELIHOOD TRAINING
- 即研究:人类推理轨迹中存在的分步信息增益特性,能否通过极大似然估计训练迁移至模型中
2.1 引理2:MLE=最小KL散度
L(θ)=H(r)+KL(r∥pθ)\mathcal{L}(\theta) = H(r) + KL(r \parallel p_\theta)L(θ)=H(r)+KL(r∥pθ)
- rrr:完整序列X=(Q,C1:K,A)X=(Q,C_{1:K},A)X=(Q,C1:K,A)的数据生成分布,
- pθp_\thetapθ:模型分布;
- L(θ)\mathcal{L}(\theta)L(θ):负对数似然函数=EX∼r[−logpθ(X)]=\mathit{E}_{X \sim r}[- \log p_\theta(X)]=EX∼r[−logpθ(X)]
- 推导:
L(θ)=EX∼r[−logpθ(X)]=−∑xr(x)logpθ(x)=−∑xr(x)logpθ(x)+∑xr(x)logr(x)−∑xr(x)logr(x)=−∑xr(x)logr(x)+∑xr(x)logr(x)pθ(x)=H(r)+KL(r∥pθ)\begin{align*} \mathcal{L}(\theta) &= \mathit{E}_{X \sim r}[- \log p_\theta(X)] \\ &= - \sum_x r(x) \log p_\theta(x) \\ &= - \sum_x r(x) \log p_\theta(x) + \sum_x r(x)log r(x) - \sum_x r(x)log r(x)\\ &= - \sum_x r(x)log r(x) + \sum_x r(x)log \frac{r(x)}{p_\theta(x)}\\ &= H(r) + KL(r \parallel p_\theta) \\ \end{align*} \\ L(θ)=EX∼r[−logpθ(X)]=−x∑r(x)logpθ(x)=−x∑r(x)logpθ(x)+x∑r(x)logr(x)−x∑r(x)logr(x)=−x∑r(x)logr(x)+x∑r(x)logpθ(x)r(x)=H(r)+KL(r∥pθ)
KL(r∥pθ)=∑xr(x)logr(x)pθ(x)KL(r \parallel p_\theta)=\sum_x r(x)log \frac{r(x)}{p_\theta(x)}KL(r∥pθ)=∑xr(x)logpθ(x)r(x)
- 因此,最小化L(θ)\mathcal{L}(\theta)L(θ),等价于最小化KL(r∥pθ)KL(r \parallel p_\theta)KL(r∥pθ)。任意一组能够降低L(θ)\mathcal{L}(\theta)L(θ)的参数θ\thetaθ序列,都会使模型分布pθp_\thetapθ在KL散度意义下向数据分布rrr收敛。由此可得,当损失函数L(θ)L(\theta)L(θ)取极小值附近时,pθp_\thetapθ近似等于rrr。
2.2 引理3:KL分解(KL Decomposition of the Joint Conditional)
KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))=KL(r(C1:K∣Q)∥pθ(C1:K∣Q))+Er(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]KL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) = KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) + \mathbb{E}_{r(C_{1:K}\mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))]KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))=KL(r(C1:K∣Q)∥pθ(C1:K∣Q))+Er(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]
2.3 引理4:KL有界→边缘/条件KL有界(MLE Implies Marginal and Conditional Alignment)
KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))≤δ ⟹ {KL(r(C1:K∣Q)∥pθ(C1:K∣Q))≤δEr(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]≤δKL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) \le \delta \implies \begin{cases} KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) \le \delta \\ \mathbb{E}_{r(C_{1:K} \mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))] \le \delta \end{cases}KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))≤δ⟹{KL(r(C1:K∣Q)∥pθ(C1:K∣Q))≤δEr(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]≤δ
根据引理3可知,若等式左边的和≤δ,等式右边的每一项也≤δ。
2.4 引理5:KL散度下熵的连续性 (Continuity of Entropy under KL)
设PPP与QQQ为有限字母集XXX上的概率分布,满足KL(P∥Q)≤δ\mathrm{KL}(P\|Q) \le \deltaKL(P∥Q)≤δ,则存在映射fX:[0,∞)→[0,∞)f_X:[0,\infty)\to[0,\infty)fX:[0,∞)→[0,∞),满足δ→0\delta\to0δ→0时fX(δ)→0f_X(\delta)\to0fX(δ)→0 当δ→0\delta\to0δ→0,使得:
∣H(P)−H(Q)∣≤fX(δ)|H(P)-H(Q)|\le f_X(\delta)∣H(P)−H(Q)∣≤fX(δ)
特别地,对任意ε>0\varepsilon>0ε>0,总存在δ>0\delta>0δ>0,满足
KL(P∥Q)≤δ ⟹ ∣H(P)−H(Q)∣≤ε\mathrm{KL}(P\|Q) \le \delta \implies |H(P)-H(Q)| \le \varepsilonKL(P∥Q)≤δ⟹∣H(P)−H(Q)∣≤ε
推导
设∥⋅∥TV\|\cdot\|_{\text{TV}}∥⋅∥TV表示全变差距离,定义:
∥P−Q∥TV:=12∑x∈X∣P(x)−Q(x)∣.\|P-Q\|_{\text{TV}}:= \frac12\sum_{x\in \mathcal{X}}|P(x)-Q(x)|.∥P−Q∥TV:=21x∈X∑∣P(x)−Q(x)∣.
根据Pinsker不等式:
∥P−Q∥TV≤12KL(P∥Q)≤δ2.\|P-Q\|_{\text{TV}} \le \sqrt{\frac12\text{KL}(P\|Q)} \le \sqrt{\frac{\delta}{2}}.∥P−Q∥TV≤21KL(P∥Q)≤2δ.
记ε:=∥P−Q∥TV\varepsilon:=\|P-Q\|_{\text{TV}}ε:=∥P−Q∥TV。Fannes-Audenaert 不等式(奥德纳特,2007)(有限字母集上熵的连续性)指出:若满足ε≤1−1∣X∣\varepsilon \le 1-\dfrac1{|\mathcal{X}|}ε≤1−∣X∣1,则
H(P)−H(Q)≤εlog(∣X∣−1)+h2(ε),H(P)-H(Q)\le \varepsilon\log(|\mathcal{X}|-1)+h_2(\varepsilon),H(P)−H(Q)≤εlog(∣X∣−1)+h2(ε),
其中二元熵函数定义为h2(ε):=−εlogε−(1−ε)log(1−ε)h_2(\varepsilon):=-\varepsilon\log\varepsilon-(1-\varepsilon)\log(1-\varepsilon)h2(ε):=−εlogε−(1−ε)log(1−ε)。
联立上述两个不等式,对所有满足δ/2≤1−1∣X∣\sqrt{\delta/2}\le1-\dfrac1{|\mathcal{X}|}δ/2≤1−∣X∣1的δ>0\delta>0δ>0,可得:
∣H(P)−H(Q)∣≤fX(δ),|H(P)-H(Q)|\le f_{\mathcal{X}}(\delta),∣H(P)−H(Q)∣≤fX(δ),
可取函数
fX(δ):=δ2log(∣X∣−1)+h2(δ2).f_{\mathcal{X}}(\delta):=\sqrt{\frac{\delta}{2}}\log(|\mathcal{X}|-1)+h_2\big(\sqrt{\frac{\delta}{2}}\big).fX(δ):=2δlog(∣X∣−1)+h2(2δ).
函数fXf_{\mathcal{X}}fX连续,且当δ→0\delta\to0δ→0时有fX(δ)→0f_{\mathcal{X}}(\delta)\to0fX(δ)→0,原因是等式右侧两项在该极限下均趋于零。
最后由连续性可推出ε\varepsilonε-δ\deltaδ形式结论:对任意给定ε>0\varepsilon>0ε>0,总能选取δ>0\delta>0δ>0使得fX(δ)≤εf_{\mathcal{X}}(\delta)\le\varepsilonfX(δ)≤ε。
预备知识
- Pinsker不等式:KL(P∥Q)≥2∥P−Q∥TV2KL(P\parallel Q) \ge 2\|P-Q\|_{\text{TV}}^2KL(P∥Q)≥2∥P−Q∥TV2
推导:
Total Variation Distance:V(P,Q)=12∑x∈X∣P(x)−Q(x)∣=∥P−Q∥TVV(P,Q)=\frac{1}{2}\sum_{x \in \mathcal{X}}|P(x)-Q(x)|=\|P-Q\|_{\text{TV}}V(P,Q)=21∑x∈X∣P(x)−Q(x)∣=∥P−Q∥TV
KL散度:KL(P∥Q)=∑x∈XP(x)lnP(x)Q(x)KL(P\parallel Q) = \sum_{x \in \mathcal{X}}P(x)ln\frac{P(x)}{Q(x)}KL(P∥Q)=∑x∈XP(x)lnQ(x)P(x)
要证明:KL(P∥Q)≥2∥P−Q∥TV2KL(P\parallel Q) \ge 2\|P-Q\|_{\text{TV}}^2KL(P∥Q)≥2∥P−Q∥TV2,需利用引理:当x>-1,(1+x)ln(1+x)≥x2/21+x/3(1+x)ln(1+x) \ge \frac{x^2/2}{1+x/3}(1+x)ln(1+x)≥1+x/3x2/2证明这个不等式,令 f(x)=(1+x)ln(1+x)−xf(x) = (1 + x)\ln(1 + x) - xf(x)=(1+x)ln(1+x)−x,有 f′(x)=ln(1+x)f'(x) = \ln(1 + x)f′(x)=ln(1+x),f′′(x)=11+xf''(x) = \frac{1}{1 + x}f′′(x)=1+x1;再令
F(x)=f(x)−f(0)−f′(0)xx2/2=f(x)x2/2,F(x) = \frac{f(x) - f(0) - f'(0)x}{x^2/2} = \frac{f(x)}{x^2/2},F(x)=x2/2f(x)−f(0)−f′(0)x=x2/2f(x),
而 F(0):=limx→0F(x)=1F(0) := \lim_{x \to 0} F(x) = 1F(0):=limx→0F(x)=1,从而使其连续。分子部分有
f(x)−f(0)−f′(0)x=∫0xf′′(t)(x−t)dt=x2∫01f′′(xt)(1−t)dt.f(x) - f(0) - f'(0)x = \int_0^x f''(t)(x - t) dt = x^2 \int_0^1 f''(xt)(1 - t) dt.f(x)−f(0)−f′(0)x=∫0xf′′(t)(x−t)dt=x2∫01f′′(xt)(1−t)dt.
易见 t↦f′′(xt)t \mapsto f''(xt)t↦f′′(xt) 是凸函数,由Jensen不等式
(对于凸函数,f(λ⋅x1+(1−λ)⋅x2)≤λ⋅f(x1)+(1−λ)⋅f(x2)f\big(\lambda \cdot x_1 + (1-\lambda) \cdot x_2\big) \le \lambda \cdot f(x_1) + (1-\lambda) \cdot f(x_2)f(λ⋅x1+(1−λ)⋅x2)≤λ⋅f(x1)+(1−λ)⋅f(x2),一般形式:f(∑i=1nλixi)≤∑i=1nλif(xi)f\left( \sum_{i=1}^{n} \lambda_i x_i \right) \le \sum_{i=1}^{n} \lambda_i f(x_i)f(∑i=1nλixi)≤∑i=1nλif(xi),连续形式:f(∫xg(x)⋅xdx)≤∫xg(x)⋅f(x)dxf(\int_x g(x)\cdot x dx) \le \int_x g(x)\cdot f(x)dxf(∫xg(x)⋅xdx)≤∫xg(x)⋅f(x)dx)
x22∫01f′′(xt)⋅2(1−t)dt≥x22f′′(x∫01t⋅2(1−t)dt)=x22f′′(x3).\frac{x^2}{2} \int_0^1 f''(xt) \cdot 2(1 - t) dt \ge \frac{x^2}{2} f''\left( x \int_0^1 t \cdot 2(1 - t) dt \right) = \frac{x^2}{2} f''\left( \frac{x}{3} \right).2x2∫01f′′(xt)⋅2(1−t)dt≥2x2f′′(x∫01t⋅2(1−t)dt)=2x2f′′(3x).
从而
F(x)=f(x)x2/2≥f′′(x3)=11+x/3.F(x) = \frac{f(x)}{x^2/2} \ge f''\left( \frac{x}{3} \right) = \frac{1}{1 + x/3}.F(x)=x2/2f(x)≥f′′(3x)=1+x/31.
证明了引理。定义r(x)=p(x)/q(x)−1r(x)=p(x)/q(x)-1r(x)=p(x)/q(x)−1,易见EQ[r(x)]=0\mathbb E_Q[r(x)]=0EQ[r(x)]=0,由Cauchy-Schwarz不等式。
(离散形式:(∑i=1naibi)2≤(∑i=1nai2)(∑i=1nbi2)\left( \sum_{i=1}^{n} a_i b_i \right)^2 \leq \left( \sum_{i=1}^{n} a_i^2 \right) \left( \sum_{i=1}^{n} b_i^2 \right)(∑i=1naibi)2≤(∑i=1nai2)(∑i=1nbi2);连续形式:(∫abf(x)g(x)dx)2≤(∫abf(x)2dx)(∫abg(x)2dx)(\int_a^bf(x)g(x)dx)^2 \le (\int_a^b f(x)^2 dx)(\int_a^b g(x)^2 dx)(∫abf(x)g(x)dx)2≤(∫abf(x)2dx)(∫abg(x)2dx))
KL(P∥Q)=EQ[(1+r(x))ln(1+r(x))]=EQ[(1+r(x))ln(1+r(x))−r(x)]≥12EQ[r(x)21+r(x)/3],由上面的引理=12EQ[r(x)21+r(x)/3]EQ[1+r(x)/3],EQ[1+r(x)/3]=1由Cauchy-Schwarz不等式≥12EQ2∣r(x)∣=12(∑x∣p(x)−q(x)∣)2\begin{align*} KL(P \parallel Q) &= \mathbb E_Q[(1+r(x))ln(1+r(x))] \\ &= \mathbb E_Q[(1+r(x))ln(1+r(x))-r(x)] \\ &\ge \frac{1}{2} \mathbb E_Q[\frac{r(x)^2}{1+r(x)/3}] \text{,由上面的引理}\\ &= \frac{1}{2} \mathbb E_Q[\frac{r(x)^2}{1+r(x)/3}] \mathbb E_Q[1+r(x)/3] , \mathbb E_Q[1+r(x)/3]=1 \text{由Cauchy-Schwarz不等式}\\ &\ge \frac{1}{2} \mathbb E^2_Q|r(x)| \\ &= \frac{1}{2}(\sum_x |p(x)-q(x)|)^2 \\ \end{align*} KL(P∥Q)=EQ[(1+r(x))ln(1+r(x))]=EQ[(1+r(x))ln(1+r(x))−r(x)]≥21EQ[1+r(x)/3r(x)2],由上面的引理=21EQ[1+r(x)/3r(x)2]EQ[1+r(x)/3],EQ[1+r(x)/3]=1由Cauchy-Schwarz不等式≥21EQ2∣r(x)∣=21(x∑∣p(x)−q(x)∣)2
- Fannes-Audenaert 不等式
对于所有迹范数距离为TTT的ddd维量子态ρ\rhoρ和σ\sigmaσ,有:∣S(ρ)−S(σ)∣≤Tlog2(d−1)+H((T,1−T)).|S(\rho) - S(\sigma)| \leq T \log_2(d-1) + H((T, 1-T)). ∣S(ρ)−S(σ)∣≤Tlog2(d−1)+H((T,1−T)).
事实上,从这个界的构造过程可以看出,不存在仅利用TTT和ddd的信息就能得到的比它更紧的界。
为了证明对于任意TTT和ddd值,这个界都是紧的,我们只需指出以下一对(可交换的)量子态能够达到这个界:
- $\rho = \text{Diag}(1-T, T/(d-1), \dots, T/(d-1)) $
- $\sigma = \text{Diag}(1, 0, \dots, 0). $
术语说明:
- Diag(a1,a2,…,ad)\text{Diag}(a_1,a_2,\dots,a_d)Diag(a1,a2,…,ad):对角矩阵,对角元依次为a1,a2,…,ada_1,a_2,\dots,a_da1,a2,…,ad
- H((p,1−p))H((p,1-p))H((p,1−p)):二元熵函数,即Hb(p)=−plog2p−(1−p)log2(1−p)H_b(p) = -p\log_2 p - (1-p)\log_2(1-p)Hb(p)=−plog2p−(1−p)log2(1−p)
- 迹范数距离TTT:对于两个d维密度矩阵(\rho)和(\sigma),它们的迹范数距离定义为T(ρ,σ)=12∥ρ−σ∥1T(\rho,\sigma) = \frac{1}{2}\|\rho-\sigma\|_1T(ρ,σ)=21∥ρ−σ∥1,由于密度矩阵是厄米矩阵,(\rho - \sigma) 也是厄米矩阵,此时迹范数等于其特征值的绝对值之和T(ρ,σ)=12∥ρ−σ∥1=∑i=1d∣λi∣T(\rho,\sigma) = \frac{1}{2}\|\rho-\sigma\|_1=\sum_{i=1}^d|\lambda_i|T(ρ,σ)=21∥ρ−σ∥1=∑i=1d∣λi∣,(\lambda_i) 是 (\rho - \sigma) 的所有特征值
2.5 引理6:条件熵的连续性(Continuity of Conditional Entropy)
设PPP和QQQ为有限积字母集X×YX \times YX×Y上的分布,且KL散度KL(P∥Q)≤δ\text{KL}(P\parallel Q) \le \deltaKL(P∥Q)≤δ。则存在函数gX,Y(δ)g_{X,Y}(\delta)gX,Y(δ),满足当δ→0\delta \to 0δ→0时gX,Y(δ)→0g_{X,Y}(\delta) \to 0gX,Y(δ)→0,使得∣HP(Y∣X)−HQ(Y∣X)∣≤gX,Y(δ)|H_P(Y \mid X) - H_Q(Y \mid X)| \le g_{X,Y}(\delta)∣HP(Y∣X)−HQ(Y∣X)∣≤gX,Y(δ)等价地,对任意ε>0\varepsilon > 0ε>0,均存在δ>0\delta > 0δ>0,满足KL(P∥Q)≤δ ⟹ ∣HP(Y∣X)−HQ(Y∣X)∣≤ε\text{KL}(P\parallel Q) \le \delta \implies |H_P(Y \mid X) - H_Q(Y \mid X)| \le \varepsilonKL(P∥Q)≤δ⟹∣HP(Y∣X)−HQ(Y∣X)∣≤ε
2.6 引理7:条件互信息的连续性(Continuity of Conditional Mutual Information)
设rrr与pθp_\thetapθ为定义在有限乘积字母集Q×C1×⋯×CK×AQ \times C_1 \times \dots \times C_K \times AQ×C1×⋯×CK×A上的分布,且给定k∈{1,2,…,K}k \in \{1,2,\dots,K\}k∈{1,2,…,K}。
若KL(r∥pθ)≤δ\text{KL}(r \parallel p_\theta) \le \deltaKL(r∥pθ)≤δ,则存在函数Gk(δ)G_k(\delta)Gk(δ),满足当δ→0\delta \to 0δ→0时Gk(δ)→0G_k(\delta) \to 0Gk(δ)→0,使得:
∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤Gk(δ)|I_r(A; C_{\le k} \mid Q) - I_{p_\theta}(A; C_{\le k} \mid Q)| \le G_k(\delta)∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤Gk(δ)
其中右侧的互信息与熵均基于分布pθp_\thetapθ计算,左侧则基于分布rrr计算。
等价于,对任意ε>0\varepsilon > 0ε>0,均存在δ>0\delta > 0δ>0,使得:
KL(r∥pθ)≤δ ⟹ ∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤ε\text{KL}(r \parallel p_\theta) \le \delta \implies |I_r(A; C_{\le k} \mid Q) - I_{p_\theta}(A; C_{\le k} \mid Q)| \le \varepsilonKL(r∥pθ)≤δ⟹∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤ε
定理2说明,如果r存在逐步的信息量,那么在MLE训练下的模型会继承这种内在属性。
4.4 SIA失效的情况
如果训练没有做到:
- 生成满足SIA的p∈Πp\in \Pip∈Π
- 模型分布pθp_\thetapθ没有忠实逼近p。
Entropy-based diagnostics are not theoretically justified if training fails to induce an answer-compatible distribution p ∈ Π that satisfies SIA and that pθ faithfully approximates.
典型的情况是:即使模型得出的最终答案是错的,模型的条件答案熵依然随着推理过程不断下降。形式上:
模型自己内部视角的互信息Ipθ(A;C≤k∣Q)>0I_{p_\theta}(A; C_{\le k} \mid Q) >0Ipθ(A;C≤k∣Q)>0,但真实耦合视角的互信息Ip(A;C≤k∣Q)→0I_p (A; C_{\le k} \mid Q) \to 0Ip(A;C≤k∣Q)→0
4.5 推导过程总结
4.5.1 提出逐步信息量假设SIA
- 由Lemma1,信息增益与互信息等价 E[Δk]=I(A;Ck∣Q,C<k)=H(A∣Q,C<k)−H(A∣Q,C≤k)\mathbb{E}[\Delta_k]= I(A;C_k \mid Q,C_{<k})= H(A \mid Q,C_{<k}) - H(A \mid Q,C_{\le k})E[Δk]=I(A;Ck∣Q,C<k)=H(A∣Q,C<k)−H(A∣Q,C≤k)
Δk(q,a,c1:k)=h(a∣q,c<k)−h(a∣q,c≤k)=logp(a∣q,c≤k)p(a∣q,c<k)\Delta_k(q,a,c_{1:k}) = h(a \mid q,c_{<k}) - h(a \mid q,c_{\le k})= \log\frac{p(a\mid q,c_{\le k})}{p(a\mid q,c_{<k})}Δk(q,a,c1:k)=h(a∣q,c<k)−h(a∣q,c≤k)=logp(a∣q,c<k)p(a∣q,c≤k)
- 含义:单次增益的平均值=单步互信息,连接个体行为与群体统计,将token级别的信息增益与宏观的信息论度量联系起来。
- 基于Lemma1推导,将t=1到k累加起来,利用互信息链式法则,得到Proposition 1:Hp(A∣Q,C1:k)=Hp(A∣Q)−Ip(A;C1:k∣Q)H_p(A \mid Q,C_{1:k}) = H_p(A \mid Q) - I_p(A;C_{1:k} \mid Q)Hp(A∣Q,C1:k)=Hp(A∣Q)−Ip(A;C1:k∣Q)
- 含义:在概率分布p下,条件答案熵并非单纯的内部不确定性度量,它是一个进度变量,可反映已积累的关于正确答案的信息量,条件熵的下降完全等于累积的互信息增加。
- 提出SIA假设:存在一个联合分布p∈Πp \in \Pip∈Π,使得:Ip(A;C1:k∣Q)≥ϵk>0,∀k≥1, p∈ΠI_p(A;C_{1:k} \mid Q) \ge \epsilon_k>0,\quad \forall k\ge1,\ p\in\PiIp(A;C1:k∣Q)≥ϵk>0,∀k≥1, p∈Π
- 含义:当且仅当 SIA 成立时(推理前缀 C1:kC_{1:k}C1:k对真实答案A 含有正的互信息),推理过程中的条件熵下降才是有效的,是推理在持续累积真实答案的信息,模型在向正确答案收敛。
模型内部熵来自 (p_\theta),真实答案来自 (p^\star)。为了把二者放在同一个概率空间里,论文定义一族联合分布:Π={p(Q,C1:K,A)∣p(Q,A)=p∗(Q,A), p(C1:K∣Q)=pθ(C1:K∣Q)}\Pi = \{p(Q,C_{1:K},A) \mid p(Q,A)=p^*(Q,A),\ p(C_{1:K} \mid Q)=p_\theta(C_{1:K} \mid Q)\}Π={p(Q,C1:K,A)∣p(Q,A)=p∗(Q,A), p(C1:K∣Q)=pθ(C1:K∣Q)}
- 同时提出了Theorem 1(Entropy constrains achievable accuracy):对误分类概率Pe(k)P_e^{(k)}Pe(k),Pe(k)≥Hp(A∣Q,C1:k)−log2log(∣A∣−1)P_e^{(k)} \ge \frac{H_p(A \mid Q,C_{1:k}) - \log2}{\log(|\mathcal{A}|-1)}Pe(k)≥log(∣A∣−1)Hp(A∣Q,C1:k)−log2
- 含义:推理链要想可靠正确,其前缀的条件答案熵必须足够低
4.5.2 证明逐步信息量假设SIA
证明如果数据分布满足SIA,MLE训练能让模型也满足SIA
-
前提:人类推理轨迹满足SIA
基于认知科学(Futrell & Hahn, 2025),受限于认知资源,人类生成的序列会最小化预测信息,导致信息渐进累积。因此人类生成的数据分布 rrr 满足 Ir(A;C1:k∣Q)≥ϵk>0I_r(A; C_{1:k}|Q) \ge \epsilon_k > 0Ir(A;C1:k∣Q)≥ϵk>0。 -
由Lemma 2(MLE=最小KL散度)L(θ)=H(r)+KL(r∥pθ)\mathcal{L}(\theta) = H(r) + KL(r \parallel p_\theta)L(θ)=H(r)+KL(r∥pθ)
- 含义:最小化L(θ)\mathcal{L}(\theta)L(θ),等价于最小化KL(r∥pθ)KL(r \parallel p_\theta)KL(r∥pθ),即推动 pθp_\thetapθ 逼近 rrr。
-
由Lemma 3, 4
- Lemma 3(联合条件KL散度的分解)KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))=KL(r(C1:K∣Q)∥pθ(C1:K∣Q))+Er(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]KL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) = KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) + \mathbb{E}_{r(C_{1:K}\mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))]KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))=KL(r(C1:K∣Q)∥pθ(C1:K∣Q))+Er(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]含义:联合KL散度 = 边缘KL散度(推理轨迹) + 条件KL散度(给定轨迹下的答案)。
- Lemma 4(MLE蕴含边缘与条件对齐)KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))≤δ ⟹ {KL(r(C1:K∣Q)∥pθ(C1:K∣Q))≤δEr(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]≤δKL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) \le \delta \implies \begin{cases} KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) \le \delta \\ \mathbb{E}_{r(C_{1:K} \mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))] \le \delta \end{cases}KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))≤δ⟹{KL(r(C1:K∣Q)∥pθ(C1:K∣Q))≤δEr(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]≤δ
- 含义:如果 pθp_\thetapθ 在联合分布上接近 rrr,那么它不仅在推理轨迹的分布上接近,也在给定推理轨迹下的答案分布上接近。
-
由Lemma 5, 6, 7证明:熵与互信息的连续性,这是从“分布接近”推导“信息量接近”的关键。
- Lemma 5 (熵的连续性):设PPP与QQQ为有限字母集XXX上的概率分布,满足KL(P∥Q)≤δ\mathrm{KL}(P\|Q) \le \deltaKL(P∥Q)≤δ,则存在映射fX:[0,∞)→[0,∞)f_X:[0,\infty)\to[0,\infty)fX:[0,∞)→[0,∞),满足δ→0\delta\to0δ→0时fX(δ)→0f_X(\delta)\to0fX(δ)→0,使得:∣H(P)−H(Q)∣≤fX(δ)|H(P)-H(Q)|\le f_X(\delta)∣H(P)−H(Q)∣≤fX(δ)
- Lemma 6 (条件熵的连续性):设PPP和QQQ为有限积字母集X×YX \times YX×Y上的分布,满足KL(P∥Q)≤δ\text{KL}(P\parallel Q) \le \deltaKL(P∥Q)≤δ。则存在函数gX,Y(δ)g_{X,Y}(\delta)gX,Y(δ),满足当δ→0\delta \to 0δ→0时gX,Y(δ)→0g_{X,Y}(\delta) \to 0gX,Y(δ)→0,使得∣HP(Y∣X)−HQ(Y∣X)∣≤gX,Y(δ)|H_P(Y \mid X) - H_Q(Y \mid X)| \le g_{X,Y}(\delta)∣HP(Y∣X)−HQ(Y∣X)∣≤gX,Y(δ)
- Lemma 7 (条件互信息的连续性):设rrr与pθp_\thetapθ为定义在有限乘积字母集Q×C1×⋯×CK×AQ \times C_1 \times \dots \times C_K \times AQ×C1×⋯×CK×A上的分布,且给定k∈{1,2,…,K}k \in \{1,2,\dots,K\}k∈{1,2,…,K}。若KL(r∥pθ)≤δ\text{KL}(r \parallel p_\theta) \le \deltaKL(r∥pθ)≤δ,则存在函数Gk(δ)G_k(\delta)Gk(δ),满足当δ→0\delta \to 0δ→0时Gk(δ)→0G_k(\delta) \to 0Gk(δ)→0,使得:∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤Gk(δ)|I_r(A; C_{\le k} \mid Q) - I_{p_\theta}(A; C_{\le k} \mid Q)| \le G_k(\delta)∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤Gk(δ)其中右侧的互信息与熵均基于分布pθp_\thetapθ计算,左侧则基于分布rrr计算。
-
最后得出Theorem 2(Transfer of internal stepwise informativeness to the model)
推导:- 已知数据分布满足 SIA:Ir(A;C≤k∣Q)≥ϵkI_r(A; C_{\le k} | Q) \ge \epsilon_kIr(A;C≤k∣Q)≥ϵk。
- 已知模型训练使分布接近:KL(r∥pθ)≤δKL(r \| p_\theta) \le \deltaKL(r∥pθ)≤δ。
- 由 Lemma 7 连续性:∣Ir−Ipθ∣≤Gk(δ)|I_r - I_{p_\theta}| \le G_k(\delta)∣Ir−Ipθ∣≤Gk(δ)。
- 结合得:Ipθ≥Ir−Gk(δ)≥ϵk−Gk(δ)I_{p_\theta} \ge I_r - G_k(\delta) \ge \epsilon_k - G_k(\delta)Ipθ≥Ir−Gk(δ)≥ϵk−Gk(δ)。
- 选择足够小的 δ\deltaδ 使得 Gk(δ)<ϵk/2G_k(\delta) < \epsilon_k / 2Gk(δ)<ϵk/2,则 Ipθ≥ϵk/2>0I_{p_\theta} \ge \epsilon_k / 2 > 0Ipθ≥ϵk/2>0。
含义:如果人类数据具有逐步信息性,且模型完美拟合数据,那么模型的内部分布也必然具备逐步信息性(满足SIA)。
参考链接
- https://arxiv.org/abs/2604.06192
- https://gaomj.cn/pinsker-inequality/
- https://www.hellenicaworld.com/Science/Mathematics/en/FannesAudenaertInequality.html
- https://arxiv.org/pdf/quant-ph/0610146



221

被折叠的 条评论
为什么被折叠?



