文献阅读:The Stepwise Informativeness Assumption:Why are Entropy Dynamics and Reasoning Correlated in LL

标题:The Stepwise Informativeness Assumption:Why are Entropy Dynamics and Reasoning Correlated in LLMs?

分步信息假设SIA:熵的动态情况和LLM的推理为什么相关?

  • arXiv:2604.06192v

背景

  • 目前有很多工作用各种基于熵的信号来研究LLM的推理过程,但大多是从经验的角度出发的。一个关键问题是:为什么依据模型预测分布来定义的内部的熵动态情况(internal entropy dynamics),会和基于真实标准答案来定义的外部正确性(external correctness)如此强相关?。
    在这里插入图片描述

方法

一、基础定义(2.1–2.4 节:模型、分布、信息论基础)

1. 自回归分解(定义1)

给定 token 序列:X1:K=(X1,…,XK)X_{1:K} = (X_1, \dots, X_K)X1:K=(X1,,XK),对于参数为θ\thetaθ的语言模型,一个完整序列的概率可按自回归方式分解为:
pθ(X1:K)=∏k=1Kpθ(Xk∣X<k)p_\theta(X_{1:K}) = \prod_{k=1}^K p_\theta(X_k \mid X_{<k})pθ(X1:K)=k=1Kpθ(XkX<k)
其中:X<k=X1:k−1X_{<k} = X_{1:k-1}X<k=X1:k1,对于下一个 token:pθ(Xk+1∣X1:k)p_\theta(X_{k+1} \mid X_{1:k})pθ(Xk+1X1:k)就是 next-token 预测概率

2. 自回归语言模型的训练目标(定义2)

训练预料集D为N个KiK_iKi长度的token序列:D={X1:Ki(i)}i=1N\mathcal{D} = \{ X^{(i)}_{1:K_i} \}_{i=1}^ND={X1:Ki(i)}i=1N
对于参数为θ\thetaθ的语言模型,最大似然训练目标:
θ∗=arg⁡max⁡θ∑i=1Nlog⁡pθ(X1:Ki(i))\theta^* = \arg\max_{\theta} \sum_{i=1}^N \log p_\theta(X^{(i)}_{1:K_i})θ=argθmaxi=1Nlogpθ(X1:Ki(i))
在实际应用中,利用上面的自回归分解:
log⁡pθ(X1:Ki(i))=∑k=1Kilog⁡pθ(Xk(i)∣X<k(i))\log p_\theta(X^{(i)}_{1:K_i}) = \sum_{k=1}^{K_i} \log p_\theta(X^{(i)}_k \mid X^{(i)}_{<k})logpθ(X1:Ki(i))=k=1Kilogpθ(Xk(i)X<k(i))

该目标通过最小化交叉熵损失函数 LCE=−∑i=1N∑k=1Kilog⁡pθ(Xk(i)∣X<k(i))L_{CE} = -\sum_{i=1}^{N} \sum_{k=1}^{K_i} \log p_\theta(X_k^{(i)} \mid X_{<k}^{(i)})LCE=i=1Nk=1Kilogpθ(Xk(i)X<k(i)) 来实现。这个目标鼓励模型让未来 token 在过去上下文下更可预测。

  • 交叉熵:基础定义(两个概率分布):给定真实分布 p(x)p(x)p(x)模型预测分布 q(x)q(x)q(x)交叉熵定义为:
    H(p,q)=−∑xp(x)log⁡q(x)H(p, q) = -\sum_{x} p(x) \log q(x)H(p,q)=xp(x)logq(x)
    • p(x)p(x)p(x):真实数据的概率分布(固定,不可改)
    • q(x)q(x)q(x):模型输出的概率分布(可训练、可优化)
  • 含义:
    • :衡量一个分布自身的不确定;
    • 交叉:用模型qqq的概率去算真实ppp的不确定——跨了两个分布,所以叫交叉熵。
      H(p,q)=H(p)+KL(p∥q)H(p, q) = H(p) + KL(p \parallel q)H(p,q)=H(p)+KL(pq)交叉熵 = 真实分布的熵(常数) + 真实与模型的差距。
  • LLM训练时,对于真实分布p(x)p(x)p(x):真实token Xk(i)X_k^{(i)}Xk(i)p=1p=1p=1,其他所有token:p=0p=0p=0
    代入标准交叉熵公式,求和只剩真实token那一项H(p,q)=−1⋅log⁡q(Xk(i))+∑其他0⋅log⁡q(x)=−log⁡q(Xk(i))H(p, q) = -1\cdot\log q(X_k^{(i)}) + \sum_{\text{其他}}0\cdot\log q(x) = -\log q(X_k^{(i)})H(p,q)=1logq(Xk(i))+其他0logq(x)=logq(Xk(i))
    • 这里的LCEL_{CE}LCE:把所有样本、所有token的简化交叉熵求和:LCE=−∑i=1N∑k=1Kilog⁡pθ(Xk(i)∣X<k(i))L_{CE} = -\sum_{i=1}^N \sum_{k=1}^{K_i} \log p_\theta(X_k^{(i)} \mid X_{<k}^{(i)})LCE=i=1Nk=1Kilogpθ(Xk(i)X<k(i))
3. 三大核心分布(定义3–5)
  • 真实问答分布 p∗(Q,A)p^*(Q,A)p(Q,A):外部标准答案分布,固定不变
  • 人类推理分布 r(Q,C1:K,A)r(Q,C_{1:K},A)r(Q,C1:K,A):人类写「问题+推理+答案」的分布。
  • 模型推理分布 pθ(C1:K∣Q)p_\theta(C_{1:K} \mid Q)pθ(C1:KQ)pθ(A∣Q,C1:K)p_\theta(A \mid Q,C_{1:K})pθ(AQ,C1:K):模型生成推理、预测答案的分布。
3.1 真实答案分布

问题为:Q∈QQ \in \mathcal{Q}QQ,答案为:A∈AA \in \mathcal{A}AA
真实分布:(Q,A)∼p∗(Q,A)(Q, A) \sim p^{*}(Q, A)(Q,A)p(Q,A)
真实后验:p∗(A∣Q)p^{*}(A \mid Q)p(AQ)
所有“正确性”都是相对于这个真实分布定义的。

3.2 人类 CoT 数据生成分布

在人类标注推理数据中,每个样本包含:(Q,C1:K,A)(Q, C_{1:K}, A)(Q,C1:K,A)

  • QQQ:问题;
  • C1:KC_{1:K}C1:K:人类写出的思维链;
  • AAA:正确答案。

论文定义经验联合分布:
r(Q,C1:K,A)=p∗(Q,A) r(C1:K,A∣Q) r(Q, C_{1:K}, A) = p^{*}(Q, A)\, r(C_{1:K}, A \mid Q) r(Q,C1:K,A)=p(Q,A)r(C1:K,AQ)
其中p⋆(Q,A)p^\star(Q, A)p(Q,A)为真实问答分布,r(C1:K,A∣Q)r(C_{1:K}, A \mid Q)r(C1:K,AQ)用于描述人工标注的在解答问题时生成思维链轨迹的过程。

3.3 模型预测分布

模型生成推理链:C1:K=(C1,…,CK)C_{1:K} = (C_1, \dots, C_K)C1:K=(C1,,CK)
模型在完整推理链上构建的自回归分布:pθ(C1:K∣Q)=∏k=1Kpθ(Ck∣Q,C<k)p_\theta(C_{1:K} \mid Q) = \prod_{k=1}^K p_\theta(C_k \mid Q, C_{<k})pθ(C1:KQ)=k=1Kpθ(CkQ,C<k)
给定完整推理链后,模型生成答案序列:A=(A1,…,AT)A = (A_1, \dots, A_T)A=(A1,,AT)
在给定推理链的条件下,在答案序列上构建的自回归分布:pθ(A∣Q,C1:K)=∏t=1Tpθ(At∣Q,C1:K,A<t)p_\theta(A \mid Q, C_{1:K}) = \prod_{t=1}^T p_\theta(A_t \mid Q, C_{1:K}, A_{<t})pθ(AQ,C1:K)=t=1Tpθ(AtQ,C1:K,A<t)

4. 信息论基础定义
4.1 熵

对于离散随机变量 X∼p(x)X \sim p(x)Xp(x),熵定义为:
H(X)=−∑x∈Xp(x)log⁡p(x) H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x) H(X)=xXp(x)logp(x)

熵表示平均不确定性。

4.2 条件熵

含义:对于x∈X,y∈Yx \in \mathcal{X}, y \in \mathcal{Y}xX,yY,已知XXX时,YYY剩余不确定性 H(Y∣X)H(Y \mid X)H(YX)
H(Y∣X)=−∑x∈X,y∈Yp(x,y)log⁡p(x,y)p(x)H(Y \mid X) = -\sum_{x \in \mathcal{X}, y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)}H(YX)=xX,yYp(x,y)logp(x)p(x,y)
因为:p(x,y)p(x)=p(y∣x)\frac{p(x, y)}{p(x)} = p(y \mid x)p(x)p(x,y)=p(yx)
所以也可写成:H(Y∣X)=−∑x,yp(x,y)log⁡p(y∣x)H(Y \mid X) = -\sum_{x, y} p(x, y) \log p(y \mid x)H(YX)=x,yp(x,y)logp(yx)

4.3 互信息

I(X;Y)=∑x,yp(x,y)log⁡p(x,y)p(x)p(y) I(X; Y) = \sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)p(y)} I(X;Y)=x,yp(x,y)logp(x)p(y)p(x,y)
互信息 I(X;Y)I (X;Y)I(X;Y):衡量随机变量 XXXYYY 共享多少信息。知道 X,对 Y 的不确定性减少了多少,反之亦然。XY越相关,互信息越大,完全独立,互信息为0。

例如:I(A;Ck∣Q,C<k)I(A;C_k|Q,C_{<k})I(A;CkQ,C<k) 在已知问题 Q 和前面所有推理步骤 C<k 的前提下,当前这一步 Cₖ,给真实答案 A 提供了多少新信息。>0则这一步有用,=0没用,<0误导。

有等价形式:I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)I(X; Y) = H(X) - H(X \mid Y) = H(Y) - H(Y \mid X)I(X;Y)=H(X)H(XY)=H(Y)H(YX)
条件互信息为:I(X;Y∣Z)=H(X∣Z)−H(X∣Y,Z)I(X; Y \mid Z) = H(X \mid Z) - H(X \mid Y, Z)I(X;YZ)=H(XZ)H(XY,Z)

  • (H(Y)):完全不了解X时,对Y的总不确定性(熵越大,越难猜准Y);
  • (H(Y|X)):已经知道X的取值后,你对Y剩余的不确定性;
  • 两者的差值(H(Y)-H(Y|X)):就是获知X之后,你对Y减少的不确定性,也就是X能分享给Y的信息量;

二、核心自定义定义&&关键引理、命题、定理

4.1. Stepwise information gain 分步信息增益
1. 点式惊讶度(定义9 Pointwise surprisal)

h(a∣q,c<k)=−log⁡p(a∣q,c<k)h(a \mid q,c_{<k}) = -\log p(a \mid q,c_{<k})h(aq,c<k)=logp(aq,c<k)

  • 含义单条样本中,在看到第 (k) 步之前的前缀时,真实答案 (a) 的 surprisal;已知前缀时,真实答案aaa个体不确定性(区别于熵的平均),熵的单样本版本,去掉求和。
2. 单步信息增益 Δk\Delta_kΔk(定义10 Information gain)

Δk(q,a,c1:k)=h(a∣q,c<k)−h(a∣q,c≤k)=−log⁡p(a∣q,c<k)+log⁡p(a∣q,c≤k)=log⁡p(a∣q,c≤k)p(a∣q,c<k) \begin{align*} \Delta_k(q,a,c_{1:k}) &= h(a \mid q,c_{<k}) - h(a \mid q,c_{\le k})\\ &= -\log p(a\mid q,c_{<k}) + \log p(a\mid q,c_{\le k}) \\ &= \log\frac{p(a\mid q,c_{\le k})}{p(a\mid q,c_{<k})} \\ \end{align*} Δk(q,a,c1:k)=h(aq,c<k)h(aq,ck)=logp(aq,c<k)+logp(aq,ck)=logp(aq,c<k)p(aq,ck)

  • 含义单条推理kkk步的信息增益:
    • Δk>0;p(a∣q,c≤k)>p(a∣q,c<k)\Delta_k>0; p(a\mid q,c_{\le k})>p(a\mid q,c_{<k})Δk>0;p(aq,ck)>p(aq,c<k):这一步有效,让答案更确定;
    • Δk<0;p(a∣q,c≤k)<p(a∣q,c<k)\Delta_k<0; p(a\mid q,c_{\le k})<p(a\mid q,c_{<k})Δk<0;p(aq,ck)<p(aq,c<k):这一步误导,让答案更不确定。
  • 走这一步前的惊讶度 − 走后的惊讶度,差值即增益。
3. 引理1:E[Δk]=\mathbb{E}[\Delta_k]=E[Δk]=条件互信息

E[Δk]=∑q,a,c1:kp(q,a,c1:k)log⁡p(a∣q,c≤k)p(a∣q,c<k);把 c1:k 拆成 c<k,ck=∑q,c<k,ck,ap(q,c<k,ck,a)log⁡p(a∣q,c<k,ck)p(a∣q,c<k)=∑q,c<kp(q,c<k)∑a,ckp(a,ck∣q,c<k)log⁡p(a,ck∣q,c<k)p(a∣q,c<k)p(ck∣q,c<k)=∑q,c<kp(q,c<k)I(A;Ck∣Q=q,C<k=c<k)=I(A;Ck∣Q,C<k)=H(A∣Q,C<k)−H(A∣Q,C≤k) \begin{align} \mathbb{E}[\Delta_k] &= \sum_{q,a,c_{1:k}}p(q,a,c_{1:k})\log\frac{p(a\mid q,c_{\le k})}{p(a\mid q,c_{<k})} ;\text{把 \(c_{1:k}\) 拆成 \(c_{<k},c_k\)}\\ &= \sum_{q,c_{<k},c_k,a}p(q,c_{<k},c_k,a)\log\frac{p(a\mid q,c_{<k},c_k)}{p(a\mid q,c_{<k})} \\ &= \sum_{q,c_{<k}}p(q,c_{<k})\sum_{a,c_k}p(a,c_k\mid q,c_{<k})\log\frac{p(a,c_k\mid q,c_{<k})}{p(a\mid q,c_{<k})p(c_k\mid q,c_{<k})}\\ &= \sum_{q,c_{<k}}p(q,c_{<k}) I(A;C_k\mid Q=q,C_{<k}=c_{<k})\\ &= I(A;C_k \mid Q,C_{<k}) \\ &= H(A \mid Q,C_{<k}) - H(A \mid Q,C_{\le k})\\ \end{align} E[Δk]=q,a,c1:kp(q,a,c1:k)logp(aq,c<k)p(aq,ck); c1:k 拆成 c<k,ck=q,c<k,ck,ap(q,c<k,ck,a)logp(aq,c<k)p(aq,c<k,ck)=q,c<kp(q,c<k)a,ckp(a,ckq,c<k)logp(aq,c<k)p(ckq,c<k)p(a,ckq,c<k)=q,c<kp(q,c<k)I(A;CkQ=q,C<k=c<k)=I(A;CkQ,C<k)=H(AQ,C<k)H(AQ,Ck)
E[Δk]=I(A;Ck∣Q,C<k)=H(A∣Q,C<k)−H(A∣Q,C≤k)\mathbb{E}[\Delta_k]= I(A;C_k \mid Q,C_{<k})= H(A \mid Q,C_{<k}) - H(A \mid Q,C_{\le k})E[Δk]=I(A;CkQ,C<k)=H(AQ,C<k)H(AQ,Ck)

  • 含义单次增益的平均值=单步互信息,连接个体行为与群体统计。
4. 累积信息增益 GkG_kGk(定义11 Cumulative gain)

Gk=∑t=1kΔt=∑t=1k[h(a∣q,c<t)−h(a∣q,c≤t)]=[h(a∣q,c<1)−h(a∣q,c≤1)]+[h(a∣q,c<2)−h(a∣q,c≤2)]+[h(a∣q,c<3)−h(a∣q,c≤3)]+⋯+[h(a∣q,c<k)−h(a∣q,c≤k)]=h(a∣q)⏟t=1, c<1−h(a∣q,c≤1)+h(a∣q,c<2)−h(a∣q,c≤2)+h(a∣q,c<3)−h(a∣q,c≤3)+⋯+h(a∣q,c<k)−h(a∣q,c≤k)=h(a∣q)−h(a∣q,c≤k)=−log⁡p(a∣q)+log⁡p(a∣q,c≤k)=log⁡p(a∣q,c≤k)p(a∣q) \begin{align*} G_k &= \sum_{t=1}^k \Delta_t \\ &= \sum_{t=1}^k [h(a\mid q,c_{<t})-h(a\mid q,c_{\le t})] \\ &= \left[ h(a \mid q, c_{<1}) - h(a \mid q, c_{\le 1}) \right] + \left[ h(a \mid q, c_{<2}) - h(a \mid q, c_{\le 2}) \right] + \left[ h(a \mid q, c_{<3}) - h(a \mid q, c_{\le 3}) \right] + \dots + \left[ h(a \mid q, c_{<k}) - h(a \mid q, c_{\le k}) \right] \\ &= \underbrace{h(a \mid q)}_{t=1,\ c_{<1}} - \cancel{h(a \mid q, c_{\le 1})} + \cancel{h(a \mid q, c_{<2})} - \cancel{h(a \mid q, c_{\le 2})} + \cancel{h(a \mid q, c_{<3})} - \cancel{h(a \mid q, c_{\le 3})} + \dots + \cancel{h(a \mid q, c_{<k})} - h(a \mid q, c_{\le k}) \\ &= h(a \mid q) - h(a \mid q,c_{\le k}) \\ &= -\log p(a\mid q)+\log p(a\mid q,c_{\le k}) \\ &= \log\frac{p(a\mid q,c_{\le k})}{p(a\mid q)} \\ \end{align*} Gk=t=1kΔt=t=1k[h(aq,c<t)h(aq,ct)]=[h(aq,c<1)h(aq,c1)]+[h(aq,c<2)h(aq,c2)]+[h(aq,c<3)h(aq,c3)]++[h(aq,c<k)h(aq,ck)]=t=1, c<1h(aq)h(aq,c1)+h(aq,c<2)h(aq,c2)+h(aq,c<3)h(aq,c3)++h(aq,c<k)h(aq,ck)=h(aq)h(aq,ck)=logp(aq)+logp(aq,ck)=logp(aq)p(aq,ck)

Gk=∑t=1kΔt=h(a∣q)−h(a∣q,c≤k)G_k = \sum_{t=1}^k \Delta_t = h(a \mid q) - h(a \mid q,c_{\le k}) Gk=t=1kΔt=h(aq)h(aq,ck)
含义:

  • h(a∣q)h(a \mid q)h(aq) :只有问题 ( q ) 时,答案 ( a ) 的初始惊讶度(初始不确定性)
  • $ h(a \mid q, c_{\le k})$:经过 ( k ) 步推理后,答案 ( a ) 的剩余惊讶度(剩余不确定性)
  • 两者的差,就是前 ( k ) 步推理总共消除了多少不确定性,即单条样本累积的信息增益,推理前缀 C1:kC_{1:k}C1:k 让答案 aaa 相比初始问题 q变得多可预测。

期望形式:
E[Gk]=E[h(a∣q)−h(a∣q,c≤k)]=E[−log⁡p(a∣q)]−E[−log⁡p(a∣q,c≤k)]=H(A∣Q)−H(A∣Q,C1:k)=I(A;C1:k∣Q)=∑t=1kI(A;Ct∣Q,C<t)\begin{align*} \mathbb{E}[G_k] &= \mathbb{E}\left[ h(a \mid q) - h(a \mid q, c_{\le k}) \right] \\ &= \mathbb{E}\left[ -\log p(a \mid q) \right] - \mathbb{E}\left[ -\log p(a \mid q, c_{\le k}) \right] \\ &= H(A \mid Q) - H(A \mid Q, C_{1:k}) \\ &= I(A; C_{1:k} \mid Q) \\ &= \sum_{t=1}^k I(A; C_t \mid Q, C_{<t}) \\ \end{align*}E[Gk]=E[h(aq)h(aq,ck)]=E[logp(aq)]E[logp(aq,ck)]=H(AQ)H(AQ,C1:k)=I(A;C1:kQ)=t=1kI(A;CtQ,C<t)

  • 含义:前kkk累计信息增益,期望是前缀与答案的互信息。

4.2. Stepwise Informativeness Assumption 分步信息假设
1. 耦合分布 (\Pi):连接模型轨迹和真实答案

模型内部熵来自 (p_\theta),真实答案来自 (p^\star)。为了把二者放在同一个概率空间里,论文定义一族联合分布:
Π={p(Q,C1:K,A)∣p(Q,A)=p∗(Q,A), p(C1:K∣Q)=pθ(C1:K∣Q)}\Pi = \{p(Q,C_{1:K},A) \mid p(Q,A)=p^*(Q,A),\ p(C_{1:K} \mid Q)=p_\theta(C_{1:K} \mid Q)\}Π={p(Q,C1:K,A)p(Q,A)=p(Q,A), p(C1:KQ)=pθ(C1:KQ)}

  • 含义:用一个联合分布把“外部正确性”和“内部推理轨迹”连接起来。

任意 p∈Πp\in\PipΠ 都必须满足两点:

  1. 问题和真实答案边缘分布正确:p(Q,A)=p⋆(Q,A)p(Q,A)=p^\star(Q,A)p(Q,A)=p(Q,A)
  2. 推理链的条件分布等于模型生成分布:p(C1:K∣Q)=pθ(C1:K∣Q)p(C_{1:K}\mid Q)=p_\theta(C_{1:K}\mid Q)p(C1:KQ)=pθ(C1:KQ)
  3. 但是它不要求:A⊥C1:K∣QA\perp C_{1:K}\mid QAC1:KQ
    “This avoids imposing any conditional independence between A and C1:K given Q.”
    真实答案和模型推理链之间可以存在耦合。
2. 命题1:条件熵=累积信息 Conditional answer entropy as cumulative information

Hp(A∣Q,C1:k)=Hp(A∣Q)−Ip(A;C1:k∣Q)H_p(A \mid Q,C_{1:k}) = H_p(A \mid Q) - I_p(A;C_{1:k} \mid Q)Hp(AQ,C1:k)=Hp(AQ)Ip(A;C1:kQ)

  • 含义:在概率分布p下,条件答案熵并非单纯的内部不确定性度量,它是一个进度变量,可反映已积累的关于正确答案的信息量。
3. 分步信息假设 SIA(假设1)

Ip(A;C1:k∣Q)≥ϵk>0,∀k≥1, p∈ΠI_p(A;C_{1:k} \mid Q) \ge \epsilon_k>0,\quad \forall k\ge1,\ p\in\PiIp(A;C1:kQ)ϵk>0,k1, pΠ

  • 含义:在某个答案一致的联合分布p下,推理前缀 C1:kC_{1:k}C1:k对真实答案A 含有正的互信息。
  • 需要注意的是:
    • SIA 是关于前缀的,不是每个 token 都必须有用
    • SIA 是关于联合耦合p,不是单独关于 pθp_θpθ
    • 序列{ϵk}\{ϵ_k\}{ϵk}用于量化与答案相关的累计信息增益,根据命题1,Hp(A∣Q,C1:k)H_p(A \mid Q,C_{1:k})Hp(AQ,C1:k)则反映模型是否在朝着正确答案的方向演进,即:SIA 下条件答案熵成为推理进展变量。
4. 定理1:熵约束推理准确率 Entropy constrains achievable accuracy

Pe(k)≥Hp(A∣Q,C1:k)−log⁡2log⁡(∣A∣−1)P_e^{(k)} \ge \frac{H_p(A \mid Q,C_{1:k}) - \log2}{\log(|\mathcal{A}|-1)}Pe(k)log(A1)Hp(AQ,C1:k)log2

设:

  • A^k\widehat A_kAk,为基于 ((Q,C_{1:k})) 的 Bayes 最优预测器(选择给定条件下最大的概率的一类),即:A^k=arg⁡max⁡ap(a∣Q,C1:k)\widehat A_k=\arg\max_a p(a\mid Q,C_{1:k})Ak=argamaxp(aQ,C1:k)
  • Pe(k)=Pr⁡(A^k≠A)P_e^{(k)}=\Pr(\widehat A_k\ne A)Pe(k)=Pr(Ak=A),表示误分类概率

则:
Pe(k)≥Hp(A∣Q,C1:k)−log⁡2log⁡(∣A∣−1)P_e^{(k)}\ge\frac{H_p(A\mid Q,C_{1:k})-\log 2}{\log(|\mathcal A|-1)}Pe(k)log(A1)Hp(AQ,C1:k)log2
其中:∣A∣>2|\mathcal A|>2A>2

  • 含义
    • 如果条件答案熵还很高,那么无论用什么预测器,错误率都不可能太低。
    • 定理1给出了正确性的一个必要条件:一条推理链的正确性无法得到可靠保证,除非其前缀具备足够低的条件答案熵。
5. Early vs Late Information Gain

论文进一步讨论:
如果两个推理链最终积累的信息量相同,但是在推理轨迹的起始片段上,其中一条推理链的条件答案熵低于另一条,则在该片段全程范围内,其可实现误差的信息论下界严格更小。

  • 更早实现熵值下降也能让更多token在低条件熵环境下生成,后续步骤受采样噪声或无效分支干扰而出错的概率更低。
  • 由此得出一条用于甄别正确推理链的实操判定标准:

    合格的推理链应当在受条件熵单调性约束倒逼之前,就早早锁定答案。

6. Saturation:饱和度

对于许多任务,从一条推理链能提取的答案相关信息是有限的,那么随着推理进行,条件熵H(A∣Q,C1:k)H(A\mid Q,C_{1:k})H(AQ,C1:k)会下降,到某个低值后,进一步下降空间很小,甚至会趋于平稳 plateau:
H(A∣Q,C1:k+1)≈H(A∣Q,C1:k)H(A\mid Q,C_{1:k+1}) \approx H(A\mid Q,C_{1:k})H(AQ,C1:k+1)H(AQ,C1:k)

  • 额外的/另外的推理步骤也无法有效降低答案的不确定性。
  • 达到平稳不足以证明正确,但一直不饱和,说明模型没有稳定收敛到答案,等同于不正确。

4.3. Why is SIA a reasonable assumption?

论文从两个方向解释:

  1. 人类推理轨迹本身具有逐步信息性;
  2. MLE / SFT / RL 会把这种结构转移到模型中。
1. 人类推理轨迹中的分步信息量
  • 论文引用了一份研究的观点:Futrell & Hahn于2025年开展的近期研究表明,在受现实认知条件(记忆、注意力与信息处理能力有限)约束的前提下,能够最小化预测信息(即过去与未来间的互信息)的时序信号会形成一种特有结构:信息被拆解为近似相互独立的组成部分,且各部分以局部化、渐进式的形式呈现。由此生成的信息序列具备循序渐进、层层增益信息的特点,与自然语言的内在结构高度契合,同时有助于后续的序列预测工作。
  • 人工编写的推理轨迹是这类序列信号的一种特例,额外具备一个特性:其后续内容包含正确答案。在相同约束条件下,前文片段会不断缩小合理接续内容与答案的可选范围。随着推理逐步推进,从整体上来看,正确答案的可预测性会不断提升。
  • 从形式上定义,令C1:KC_{1:K}C1:K代表人类生成的思维链,AAA为标准答案。若推理轨迹能够最小化预测信息,则前缀C1:kC_{1:k}C1:k针对后续字符(包含答案AAA)承载的互信息会逐步递增。与之等价,在数据生成分布r(Q,C1:K,A)r(Q, C_{1:K}, A)r(Q,C1:K,A)下,条件答案熵Hr(A∣Q,C1:k)H_r(A \mid Q, C_{1:k})Hr(AQ,C1:k)的期望值随kkk增大而递减,这意味着前缀层面的互信息Ir(A;C1:k∣Q)I_r(A; C_{1:k} \mid Q)Ir(A;C1:kQ)持续升高。

data generating distribution指的生成全部观测数据的客观真实联合概率分布

  • 关键在于,该论证并未假定人类会为保证正确性而优化中间步骤,也不认为人类在生成内容的过程中能够获取答案分布。分步信息性反而是序列受到通用认知约束后产生的结构性结果。
2. 最大似然训练下分布信息量的传递 TRANSFER OF STEPWISE INFORMATIVENESS UNDER MAXIMUM LIKELIHOOD TRAINING
  • 即研究:人类推理轨迹中存在的分步信息增益特性,能否通过极大似然估计训练迁移至模型中

2.1 引理2:MLE=最小KL散度

L(θ)=H(r)+KL(r∥pθ)\mathcal{L}(\theta) = H(r) + KL(r \parallel p_\theta)L(θ)=H(r)+KL(rpθ)

  • rrr:完整序列X=(Q,C1:K,A)X=(Q,C_{1:K},A)X=(Q,C1:K,A)的数据生成分布,
  • pθp_\thetapθ:模型分布;
  • L(θ)\mathcal{L}(\theta)L(θ):负对数似然函数=EX∼r[−log⁡pθ(X)]=\mathit{E}_{X \sim r}[- \log p_\theta(X)]=EXr[logpθ(X)]
  • 推导:
    L(θ)=EX∼r[−log⁡pθ(X)]=−∑xr(x)log⁡pθ(x)=−∑xr(x)log⁡pθ(x)+∑xr(x)logr(x)−∑xr(x)logr(x)=−∑xr(x)logr(x)+∑xr(x)logr(x)pθ(x)=H(r)+KL(r∥pθ)\begin{align*} \mathcal{L}(\theta) &= \mathit{E}_{X \sim r}[- \log p_\theta(X)] \\ &= - \sum_x r(x) \log p_\theta(x) \\ &= - \sum_x r(x) \log p_\theta(x) + \sum_x r(x)log r(x) - \sum_x r(x)log r(x)\\ &= - \sum_x r(x)log r(x) + \sum_x r(x)log \frac{r(x)}{p_\theta(x)}\\ &= H(r) + KL(r \parallel p_\theta) \\ \end{align*} \\ L(θ)=EXr[logpθ(X)]=xr(x)logpθ(x)=xr(x)logpθ(x)+xr(x)logr(x)xr(x)logr(x)=xr(x)logr(x)+xr(x)logpθ(x)r(x)=H(r)+KL(rpθ)
    KL(r∥pθ)=∑xr(x)logr(x)pθ(x)KL(r \parallel p_\theta)=\sum_x r(x)log \frac{r(x)}{p_\theta(x)}KL(rpθ)=xr(x)logpθ(x)r(x)
  • 因此,最小化L(θ)\mathcal{L}(\theta)L(θ),等价于最小化KL(r∥pθ)KL(r \parallel p_\theta)KL(rpθ)。任意一组能够降低L(θ)\mathcal{L}(\theta)L(θ)的参数θ\thetaθ序列,都会使模型分布pθp_\thetapθ在KL散度意义下向数据分布rrr收敛。由此可得,当损失函数L(θ)L(\theta)L(θ)取极小值附近时,pθp_\thetapθ近似等于rrr
2.2 引理3:KL分解(KL Decomposition of the Joint Conditional)

KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))=KL(r(C1:K∣Q)∥pθ(C1:K∣Q))+Er(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]KL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) = KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) + \mathbb{E}_{r(C_{1:K}\mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))]KL(r(C1:K,AQ)pθ(C1:K,AQ))=KL(r(C1:KQ)pθ(C1:KQ))+Er(C1:KQ)[KL(r(AQ,C1:K)pθ(AQ,C1:K))]

2.3 引理4:KL有界→边缘/条件KL有界(MLE Implies Marginal and Conditional Alignment)

KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))≤δ  ⟹  {KL(r(C1:K∣Q)∥pθ(C1:K∣Q))≤δEr(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]≤δKL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) \le \delta \implies \begin{cases} KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) \le \delta \\ \mathbb{E}_{r(C_{1:K} \mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))] \le \delta \end{cases}KL(r(C1:K,AQ)pθ(C1:K,AQ))δ{KL(r(C1:KQ)pθ(C1:KQ))δEr(C1:KQ)[KL(r(AQ,C1:K)pθ(AQ,C1:K))]δ

根据引理3可知,若等式左边的和≤δ,等式右边的每一项也≤δ。

2.4 引理5:KL散度下熵的连续性 (Continuity of Entropy under KL)

PPPQQQ为有限字母集XXX上的概率分布,满足KL(P∥Q)≤δ\mathrm{KL}(P\|Q) \le \deltaKL(PQ)δ,则存在映射fX:[0,∞)→[0,∞)f_X:[0,\infty)\to[0,\infty)fX:[0,)[0,),满足δ→0\delta\to0δ0fX(δ)→0f_X(\delta)\to0fX(δ)0δ→0\delta\to0δ0,使得:
∣H(P)−H(Q)∣≤fX(δ)|H(P)-H(Q)|\le f_X(\delta)H(P)H(Q)fX(δ)
特别地,对任意ε>0\varepsilon>0ε>0,总存在δ>0\delta>0δ>0,满足
KL(P∥Q)≤δ  ⟹  ∣H(P)−H(Q)∣≤ε\mathrm{KL}(P\|Q) \le \delta \implies |H(P)-H(Q)| \le \varepsilonKL(PQ)δH(P)H(Q)ε

推导
∥⋅∥TV\|\cdot\|_{\text{TV}}TV表示全变差距离,定义:
∥P−Q∥TV:=12∑x∈X∣P(x)−Q(x)∣.\|P-Q\|_{\text{TV}}:= \frac12\sum_{x\in \mathcal{X}}|P(x)-Q(x)|.PQTV:=21xXP(x)Q(x)∣.
根据Pinsker不等式
∥P−Q∥TV≤12KL(P∥Q)≤δ2.\|P-Q\|_{\text{TV}} \le \sqrt{\frac12\text{KL}(P\|Q)} \le \sqrt{\frac{\delta}{2}}.PQTV21KL(PQ)2δ.
ε:=∥P−Q∥TV\varepsilon:=\|P-Q\|_{\text{TV}}ε:=PQTV。Fannes-Audenaert 不等式(奥德纳特,2007)(有限字母集上熵的连续性)指出:若满足ε≤1−1∣X∣\varepsilon \le 1-\dfrac1{|\mathcal{X}|}ε1X1,则
H(P)−H(Q)≤εlog⁡(∣X∣−1)+h2(ε),H(P)-H(Q)\le \varepsilon\log(|\mathcal{X}|-1)+h_2(\varepsilon),H(P)H(Q)εlog(X1)+h2(ε),
其中二元熵函数定义为h2(ε):=−εlog⁡ε−(1−ε)log⁡(1−ε)h_2(\varepsilon):=-\varepsilon\log\varepsilon-(1-\varepsilon)\log(1-\varepsilon)h2(ε):=εlogε(1ε)log(1ε)
联立上述两个不等式,对所有满足δ/2≤1−1∣X∣\sqrt{\delta/2}\le1-\dfrac1{|\mathcal{X}|}δ/21X1δ>0\delta>0δ>0,可得:
∣H(P)−H(Q)∣≤fX(δ),|H(P)-H(Q)|\le f_{\mathcal{X}}(\delta),H(P)H(Q)fX(δ),
可取函数
fX(δ):=δ2log⁡(∣X∣−1)+h2(δ2).f_{\mathcal{X}}(\delta):=\sqrt{\frac{\delta}{2}}\log(|\mathcal{X}|-1)+h_2\big(\sqrt{\frac{\delta}{2}}\big).fX(δ):=2δlog(X1)+h2(2δ).
函数fXf_{\mathcal{X}}fX连续,且当δ→0\delta\to0δ0时有fX(δ)→0f_{\mathcal{X}}(\delta)\to0fX(δ)0,原因是等式右侧两项在该极限下均趋于零。
最后由连续性可推出ε\varepsilonε-δ\deltaδ形式结论:对任意给定ε>0\varepsilon>0ε>0,总能选取δ>0\delta>0δ>0使得fX(δ)≤εf_{\mathcal{X}}(\delta)\le\varepsilonfX(δ)ε
预备知识

  • Pinsker不等式KL(P∥Q)≥2∥P−Q∥TV2KL(P\parallel Q) \ge 2\|P-Q\|_{\text{TV}}^2KL(PQ)2∥PQTV2

推导:
Total Variation Distance:V(P,Q)=12∑x∈X∣P(x)−Q(x)∣=∥P−Q∥TVV(P,Q)=\frac{1}{2}\sum_{x \in \mathcal{X}}|P(x)-Q(x)|=\|P-Q\|_{\text{TV}}V(P,Q)=21xXP(x)Q(x)=PQTV
KL散度:KL(P∥Q)=∑x∈XP(x)lnP(x)Q(x)KL(P\parallel Q) = \sum_{x \in \mathcal{X}}P(x)ln\frac{P(x)}{Q(x)}KL(PQ)=xXP(x)lnQ(x)P(x)
要证明:KL(P∥Q)≥2∥P−Q∥TV2KL(P\parallel Q) \ge 2\|P-Q\|_{\text{TV}}^2KL(PQ)2∥PQTV2,需利用引理:当x>-1,(1+x)ln(1+x)≥x2/21+x/3(1+x)ln(1+x) \ge \frac{x^2/2}{1+x/3}(1+x)ln(1+x)1+x/3x2/2

证明这个不等式,令 f(x)=(1+x)ln⁡(1+x)−xf(x) = (1 + x)\ln(1 + x) - xf(x)=(1+x)ln(1+x)x,有 f′(x)=ln⁡(1+x)f'(x) = \ln(1 + x)f(x)=ln(1+x)f′′(x)=11+xf''(x) = \frac{1}{1 + x}f′′(x)=1+x1;再令
F(x)=f(x)−f(0)−f′(0)xx2/2=f(x)x2/2,F(x) = \frac{f(x) - f(0) - f'(0)x}{x^2/2} = \frac{f(x)}{x^2/2},F(x)=x2/2f(x)f(0)f(0)x=x2/2f(x),
F(0):=lim⁡x→0F(x)=1F(0) := \lim_{x \to 0} F(x) = 1F(0):=limx0F(x)=1,从而使其连续。分子部分有
f(x)−f(0)−f′(0)x=∫0xf′′(t)(x−t)dt=x2∫01f′′(xt)(1−t)dt.f(x) - f(0) - f'(0)x = \int_0^x f''(t)(x - t) dt = x^2 \int_0^1 f''(xt)(1 - t) dt.f(x)f(0)f(0)x=0xf′′(t)(xt)dt=x201f′′(xt)(1t)dt.
易见 t↦f′′(xt)t \mapsto f''(xt)tf′′(xt) 是凸函数,由Jensen不等式
(对于凸函数,f(λ⋅x1+(1−λ)⋅x2)≤λ⋅f(x1)+(1−λ)⋅f(x2)f\big(\lambda \cdot x_1 + (1-\lambda) \cdot x_2\big) \le \lambda \cdot f(x_1) + (1-\lambda) \cdot f(x_2)f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2),一般形式:f(∑i=1nλixi)≤∑i=1nλif(xi)f\left( \sum_{i=1}^{n} \lambda_i x_i \right) \le \sum_{i=1}^{n} \lambda_i f(x_i)f(i=1nλixi)i=1nλif(xi)连续形式f(∫xg(x)⋅xdx)≤∫xg(x)⋅f(x)dxf(\int_x g(x)\cdot x dx) \le \int_x g(x)\cdot f(x)dxf(xg(x)xdx)xg(x)f(x)dx)
x22∫01f′′(xt)⋅2(1−t)dt≥x22f′′(x∫01t⋅2(1−t)dt)=x22f′′(x3).\frac{x^2}{2} \int_0^1 f''(xt) \cdot 2(1 - t) dt \ge \frac{x^2}{2} f''\left( x \int_0^1 t \cdot 2(1 - t) dt \right) = \frac{x^2}{2} f''\left( \frac{x}{3} \right).2x201f′′(xt)2(1t)dt2x2f′′(x01t2(1t)dt)=2x2f′′(3x).
从而
F(x)=f(x)x2/2≥f′′(x3)=11+x/3.F(x) = \frac{f(x)}{x^2/2} \ge f''\left( \frac{x}{3} \right) = \frac{1}{1 + x/3}.F(x)=x2/2f(x)f′′(3x)=1+x/31.
证明了引理。

定义r(x)=p(x)/q(x)−1r(x)=p(x)/q(x)-1r(x)=p(x)/q(x)1,易见EQ[r(x)]=0\mathbb E_Q[r(x)]=0EQ[r(x)]=0,由Cauchy-Schwarz不等式。
(离散形式(∑i=1naibi)2≤(∑i=1nai2)(∑i=1nbi2)\left( \sum_{i=1}^{n} a_i b_i \right)^2 \leq \left( \sum_{i=1}^{n} a_i^2 \right) \left( \sum_{i=1}^{n} b_i^2 \right)(i=1naibi)2(i=1nai2)(i=1nbi2);连续形式:(∫abf(x)g(x)dx)2≤(∫abf(x)2dx)(∫abg(x)2dx)(\int_a^bf(x)g(x)dx)^2 \le (\int_a^b f(x)^2 dx)(\int_a^b g(x)^2 dx)(abf(x)g(x)dx)2(abf(x)2dx)(abg(x)2dx))
KL(P∥Q)=EQ[(1+r(x))ln(1+r(x))]=EQ[(1+r(x))ln(1+r(x))−r(x)]≥12EQ[r(x)21+r(x)/3],由上面的引理=12EQ[r(x)21+r(x)/3]EQ[1+r(x)/3],EQ[1+r(x)/3]=1由Cauchy-Schwarz不等式≥12EQ2∣r(x)∣=12(∑x∣p(x)−q(x)∣)2\begin{align*} KL(P \parallel Q) &= \mathbb E_Q[(1+r(x))ln(1+r(x))] \\ &= \mathbb E_Q[(1+r(x))ln(1+r(x))-r(x)] \\ &\ge \frac{1}{2} \mathbb E_Q[\frac{r(x)^2}{1+r(x)/3}] \text{,由上面的引理}\\ &= \frac{1}{2} \mathbb E_Q[\frac{r(x)^2}{1+r(x)/3}] \mathbb E_Q[1+r(x)/3] , \mathbb E_Q[1+r(x)/3]=1 \text{由Cauchy-Schwarz不等式}\\ &\ge \frac{1}{2} \mathbb E^2_Q|r(x)| \\ &= \frac{1}{2}(\sum_x |p(x)-q(x)|)^2 \\ \end{align*} KL(PQ)=EQ[(1+r(x))ln(1+r(x))]=EQ[(1+r(x))ln(1+r(x))r(x)]21EQ[1+r(x)/3r(x)2],由上面的引理=21EQ[1+r(x)/3r(x)2]EQ[1+r(x)/3],EQ[1+r(x)/3]=1Cauchy-Schwarz不等式21EQ2r(x)=21(xp(x)q(x))2

  • Fannes-Audenaert 不等式

对于所有迹范数距离为TTTddd维量子态ρ\rhoρσ\sigmaσ,有:∣S(ρ)−S(σ)∣≤Tlog⁡2(d−1)+H((T,1−T)).|S(\rho) - S(\sigma)| \leq T \log_2(d-1) + H((T, 1-T)). S(ρ)S(σ)Tlog2(d1)+H((T,1T)).
事实上,从这个界的构造过程可以看出,不存在仅利用TTTddd的信息就能得到的比它更紧的界
为了证明对于任意TTTddd值,这个界都是紧的,我们只需指出以下一对(可交换的)量子态能够达到这个界:

  • $\rho = \text{Diag}(1-T, T/(d-1), \dots, T/(d-1)) $
  • $\sigma = \text{Diag}(1, 0, \dots, 0). $

在这里插入图片描述
在这里插入图片描述
术语说明:

  • Diag(a1,a2,…,ad)\text{Diag}(a_1,a_2,\dots,a_d)Diag(a1,a2,,ad):对角矩阵,对角元依次为a1,a2,…,ada_1,a_2,\dots,a_da1,a2,,ad
  • H((p,1−p))H((p,1-p))H((p,1p)):二元熵函数,即Hb(p)=−plog⁡2p−(1−p)log⁡2(1−p)H_b(p) = -p\log_2 p - (1-p)\log_2(1-p)Hb(p)=plog2p(1p)log2(1p)
  • 迹范数距离TTT:对于两个d维密度矩阵(\rho)和(\sigma),它们的迹范数距离定义为T(ρ,σ)=12∥ρ−σ∥1T(\rho,\sigma) = \frac{1}{2}\|\rho-\sigma\|_1T(ρ,σ)=21ρσ1,由于密度矩阵是厄米矩阵,(\rho - \sigma) 也是厄米矩阵,此时迹范数等于其特征值的绝对值之和T(ρ,σ)=12∥ρ−σ∥1=∑i=1d∣λi∣T(\rho,\sigma) = \frac{1}{2}\|\rho-\sigma\|_1=\sum_{i=1}^d|\lambda_i|T(ρ,σ)=21ρσ1=i=1dλi,(\lambda_i) 是 (\rho - \sigma) 的所有特征值
2.5 引理6:条件熵的连续性(Continuity of Conditional Entropy)

PPPQQQ为有限积字母集X×YX \times YX×Y上的分布,且KL散度KL(P∥Q)≤δ\text{KL}(P\parallel Q) \le \deltaKL(PQ)δ。则存在函数gX,Y(δ)g_{X,Y}(\delta)gX,Y(δ),满足当δ→0\delta \to 0δ0gX,Y(δ)→0g_{X,Y}(\delta) \to 0gX,Y(δ)0,使得∣HP(Y∣X)−HQ(Y∣X)∣≤gX,Y(δ)|H_P(Y \mid X) - H_Q(Y \mid X)| \le g_{X,Y}(\delta)HP(YX)HQ(YX)gX,Y(δ)等价地,对任意ε>0\varepsilon > 0ε>0,均存在δ>0\delta > 0δ>0,满足KL(P∥Q)≤δ  ⟹  ∣HP(Y∣X)−HQ(Y∣X)∣≤ε\text{KL}(P\parallel Q) \le \delta \implies |H_P(Y \mid X) - H_Q(Y \mid X)| \le \varepsilonKL(PQ)δHP(YX)HQ(YX)ε

2.6 引理7:条件互信息的连续性(Continuity of Conditional Mutual Information)

rrrpθp_\thetapθ为定义在有限乘积字母集Q×C1×⋯×CK×AQ \times C_1 \times \dots \times C_K \times AQ×C1××CK×A上的分布,且给定k∈{1,2,…,K}k \in \{1,2,\dots,K\}k{1,2,,K}
KL(r∥pθ)≤δ\text{KL}(r \parallel p_\theta) \le \deltaKL(rpθ)δ,则存在函数Gk(δ)G_k(\delta)Gk(δ),满足当δ→0\delta \to 0δ0Gk(δ)→0G_k(\delta) \to 0Gk(δ)0,使得:
∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤Gk(δ)|I_r(A; C_{\le k} \mid Q) - I_{p_\theta}(A; C_{\le k} \mid Q)| \le G_k(\delta)Ir(A;CkQ)Ipθ(A;CkQ)Gk(δ)
其中右侧的互信息与熵均基于分布pθp_\thetapθ计算,左侧则基于分布rrr计算。
等价于,对任意ε>0\varepsilon > 0ε>0,均存在δ>0\delta > 0δ>0,使得:
KL(r∥pθ)≤δ  ⟹  ∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤ε\text{KL}(r \parallel p_\theta) \le \delta \implies |I_r(A; C_{\le k} \mid Q) - I_{p_\theta}(A; C_{\le k} \mid Q)| \le \varepsilonKL(rpθ)δIr(A;CkQ)Ipθ(A;CkQ)ε

定理2说明,如果r存在逐步的信息量,那么在MLE训练下的模型会继承这种内在属性。

4.4 SIA失效的情况

如果训练没有做到:

  1. 生成满足SIA的p∈Πp\in \PipΠ
  2. 模型分布pθp_\thetapθ没有忠实逼近p。

Entropy-based diagnostics are not theoretically justified if training fails to induce an answer-compatible distribution p ∈ Π that satisfies SIA and that pθ faithfully approximates.

典型的情况是:即使模型得出的最终答案是错的,模型的条件答案熵依然随着推理过程不断下降。形式上:
模型自己内部视角的互信息Ipθ(A;C≤k∣Q)>0I_{p_\theta}(A; C_{\le k} \mid Q) >0Ipθ(A;CkQ)>0,但真实耦合视角的互信息Ip(A;C≤k∣Q)→0I_p (A; C_{\le k} \mid Q) \to 0Ip(A;CkQ)0

4.5 推导过程总结
4.5.1 提出逐步信息量假设SIA
  1. 由Lemma1,信息增益与互信息等价 E[Δk]=I(A;Ck∣Q,C<k)=H(A∣Q,C<k)−H(A∣Q,C≤k)\mathbb{E}[\Delta_k]= I(A;C_k \mid Q,C_{<k})= H(A \mid Q,C_{<k}) - H(A \mid Q,C_{\le k})E[Δk]=I(A;CkQ,C<k)=H(AQ,C<k)H(AQ,Ck)

    Δk(q,a,c1:k)=h(a∣q,c<k)−h(a∣q,c≤k)=log⁡p(a∣q,c≤k)p(a∣q,c<k)\Delta_k(q,a,c_{1:k}) = h(a \mid q,c_{<k}) - h(a \mid q,c_{\le k})= \log\frac{p(a\mid q,c_{\le k})}{p(a\mid q,c_{<k})}Δk(q,a,c1:k)=h(aq,c<k)h(aq,ck)=logp(aq,c<k)p(aq,ck)

    • 含义单次增益的平均值=单步互信息,连接个体行为与群体统计,将token级别的信息增益与宏观的信息论度量联系起来。
  2. 基于Lemma1推导,将t=1到k累加起来,利用互信息链式法则,得到Proposition 1:Hp(A∣Q,C1:k)=Hp(A∣Q)−Ip(A;C1:k∣Q)H_p(A \mid Q,C_{1:k}) = H_p(A \mid Q) - I_p(A;C_{1:k} \mid Q)Hp(AQ,C1:k)=Hp(AQ)Ip(A;C1:kQ)
    • 含义:在概率分布p下,条件答案熵并非单纯的内部不确定性度量,它是一个进度变量,可反映已积累的关于正确答案的信息量,条件熵的下降完全等于累积的互信息增加
  3. 提出SIA假设:存在一个联合分布p∈Πp \in \PipΠ,使得:Ip(A;C1:k∣Q)≥ϵk>0,∀k≥1, p∈ΠI_p(A;C_{1:k} \mid Q) \ge \epsilon_k>0,\quad \forall k\ge1,\ p\in\PiIp(A;C1:kQ)ϵk>0,k1, pΠ
    • 含义:当且仅当 SIA 成立时(推理前缀 C1:kC_{1:k}C1:k对真实答案A 含有正的互信息),推理过程中的条件熵下降才是有效的,是推理在持续累积真实答案的信息,模型在向正确答案收敛。

    模型内部熵来自 (p_\theta),真实答案来自 (p^\star)。为了把二者放在同一个概率空间里,论文定义一族联合分布:Π={p(Q,C1:K,A)∣p(Q,A)=p∗(Q,A), p(C1:K∣Q)=pθ(C1:K∣Q)}\Pi = \{p(Q,C_{1:K},A) \mid p(Q,A)=p^*(Q,A),\ p(C_{1:K} \mid Q)=p_\theta(C_{1:K} \mid Q)\}Π={p(Q,C1:K,A)p(Q,A)=p(Q,A), p(C1:KQ)=pθ(C1:KQ)}

  4. 同时提出了Theorem 1(Entropy constrains achievable accuracy):对误分类概率Pe(k)P_e^{(k)}Pe(k),Pe(k)≥Hp(A∣Q,C1:k)−log⁡2log⁡(∣A∣−1)P_e^{(k)} \ge \frac{H_p(A \mid Q,C_{1:k}) - \log2}{\log(|\mathcal{A}|-1)}Pe(k)log(A1)Hp(AQ,C1:k)log2
    • 含义:推理链要想可靠正确,其前缀的条件答案熵必须足够低
4.5.2 证明逐步信息量假设SIA

证明如果数据分布满足SIA,MLE训练能让模型也满足SIA

  1. 前提:人类推理轨迹满足SIA
    基于认知科学(Futrell & Hahn, 2025),受限于认知资源,人类生成的序列会最小化预测信息,导致信息渐进累积。因此人类生成的数据分布 rrr 满足 Ir(A;C1:k∣Q)≥ϵk>0I_r(A; C_{1:k}|Q) \ge \epsilon_k > 0Ir(A;C1:kQ)ϵk>0

  2. Lemma 2(MLE=最小KL散度)L(θ)=H(r)+KL(r∥pθ)\mathcal{L}(\theta) = H(r) + KL(r \parallel p_\theta)L(θ)=H(r)+KL(rpθ)

    • 含义:最小化L(θ)\mathcal{L}(\theta)L(θ),等价于最小化KL(r∥pθ)KL(r \parallel p_\theta)KL(rpθ),即推动 pθp_\thetapθ 逼近 rrr
  3. 由Lemma 3, 4

    • Lemma 3(联合条件KL散度的分解)KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))=KL(r(C1:K∣Q)∥pθ(C1:K∣Q))+Er(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]KL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) = KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) + \mathbb{E}_{r(C_{1:K}\mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))]KL(r(C1:K,AQ)pθ(C1:K,AQ))=KL(r(C1:KQ)pθ(C1:KQ))+Er(C1:KQ)[KL(r(AQ,C1:K)pθ(AQ,C1:K))]含义:联合KL散度 = 边缘KL散度(推理轨迹) + 条件KL散度(给定轨迹下的答案)。
    • Lemma 4(MLE蕴含边缘与条件对齐)KL(r(C1:K,A∣Q)∥pθ(C1:K,A∣Q))≤δ  ⟹  {KL(r(C1:K∣Q)∥pθ(C1:K∣Q))≤δEr(C1:K∣Q)[KL(r(A∣Q,C1:K)∥pθ(A∣Q,C1:K))]≤δKL(r(C_{1:K},A \mid Q) \parallel p_\theta(C_{1:K},A \mid Q)) \le \delta \implies \begin{cases} KL(r(C_{1:K} \mid Q) \parallel p_\theta(C_{1:K} \mid Q)) \le \delta \\ \mathbb{E}_{r(C_{1:K} \mid Q)}[KL(r(A \mid Q,C_{1:K}) \parallel p_\theta(A \mid Q,C_{1:K}))] \le \delta \end{cases}KL(r(C1:K,AQ)pθ(C1:K,AQ))δ{KL(r(C1:KQ)pθ(C1:KQ))δEr(C1:KQ)[KL(r(AQ,C1:K)pθ(AQ,C1:K))]δ
    • 含义:如果 pθp_\thetapθ 在联合分布上接近 rrr,那么它不仅在推理轨迹的分布上接近,也在给定推理轨迹下的答案分布上接近。
  4. 由Lemma 5, 6, 7证明:熵与互信息的连续性,这是从“分布接近”推导“信息量接近”的关键。

    • Lemma 5 (熵的连续性):设PPPQQQ为有限字母集XXX上的概率分布,满足KL(P∥Q)≤δ\mathrm{KL}(P\|Q) \le \deltaKL(PQ)δ,则存在映射fX:[0,∞)→[0,∞)f_X:[0,\infty)\to[0,\infty)fX:[0,)[0,),满足δ→0\delta\to0δ0fX(δ)→0f_X(\delta)\to0fX(δ)0,使得:∣H(P)−H(Q)∣≤fX(δ)|H(P)-H(Q)|\le f_X(\delta)H(P)H(Q)fX(δ)
    • Lemma 6 (条件熵的连续性):设PPPQQQ为有限积字母集X×YX \times YX×Y上的分布,满足KL(P∥Q)≤δ\text{KL}(P\parallel Q) \le \deltaKL(PQ)δ。则存在函数gX,Y(δ)g_{X,Y}(\delta)gX,Y(δ),满足当δ→0\delta \to 0δ0gX,Y(δ)→0g_{X,Y}(\delta) \to 0gX,Y(δ)0,使得∣HP(Y∣X)−HQ(Y∣X)∣≤gX,Y(δ)|H_P(Y \mid X) - H_Q(Y \mid X)| \le g_{X,Y}(\delta)HP(YX)HQ(YX)gX,Y(δ)
    • Lemma 7 (条件互信息的连续性):设rrrpθp_\thetapθ为定义在有限乘积字母集Q×C1×⋯×CK×AQ \times C_1 \times \dots \times C_K \times AQ×C1××CK×A上的分布,且给定k∈{1,2,…,K}k \in \{1,2,\dots,K\}k{1,2,,K}。若KL(r∥pθ)≤δ\text{KL}(r \parallel p_\theta) \le \deltaKL(rpθ)δ,则存在函数Gk(δ)G_k(\delta)Gk(δ),满足当δ→0\delta \to 0δ0Gk(δ)→0G_k(\delta) \to 0Gk(δ)0,使得:∣Ir(A;C≤k∣Q)−Ipθ(A;C≤k∣Q)∣≤Gk(δ)|I_r(A; C_{\le k} \mid Q) - I_{p_\theta}(A; C_{\le k} \mid Q)| \le G_k(\delta)Ir(A;CkQ)Ipθ(A;CkQ)Gk(δ)其中右侧的互信息与熵均基于分布pθp_\thetapθ计算,左侧则基于分布rrr计算。
  5. 最后得出Theorem 2(Transfer of internal stepwise informativeness to the model)
    推导

    1. 已知数据分布满足 SIA:Ir(A;C≤k∣Q)≥ϵkI_r(A; C_{\le k} | Q) \ge \epsilon_kIr(A;CkQ)ϵk
    2. 已知模型训练使分布接近:KL(r∥pθ)≤δKL(r \| p_\theta) \le \deltaKL(rpθ)δ
    3. 由 Lemma 7 连续性:∣Ir−Ipθ∣≤Gk(δ)|I_r - I_{p_\theta}| \le G_k(\delta)IrIpθGk(δ)
    4. 结合得:Ipθ≥Ir−Gk(δ)≥ϵk−Gk(δ)I_{p_\theta} \ge I_r - G_k(\delta) \ge \epsilon_k - G_k(\delta)IpθIrGk(δ)ϵkGk(δ)
    5. 选择足够小的 δ\deltaδ 使得 Gk(δ)<ϵk/2G_k(\delta) < \epsilon_k / 2Gk(δ)<ϵk/2,则 Ipθ≥ϵk/2>0I_{p_\theta} \ge \epsilon_k / 2 > 0Ipθϵk/2>0

    含义如果人类数据具有逐步信息性,且模型完美拟合数据,那么模型的内部分布也必然具备逐步信息性(满足SIA)。


参考链接

  1. https://arxiv.org/abs/2604.06192
  2. https://gaomj.cn/pinsker-inequality/
  3. https://www.hellenicaworld.com/Science/Mathematics/en/FannesAudenaertInequality.html
  4. https://arxiv.org/pdf/quant-ph/0610146
内容概要:本文研究了基于CNN-BiGRU-Attention混合神经网络模型的风电功率预测方法,旨在提升风力发电功率预测的准确性。该模型融合卷积神经网络(CNN)以提取输入变量中的局部时空特征,结合双向门控循环单元(BiGRU)充分捕捉时间序列前后向的长期依赖关系,并引入注意力机制(Attention)动态加权关键时间步的特征信息,增强模型对重要时刻的敏感度。研究采用多变量输入进行单步预测,综合纳入风速、风向、温度等多种气象因素作为模型输入,全面反映环境变量对风电输出的影响。通过Matlab平台完成模型构建、训练与仿真验证,实验结果表明该混合模型在预测精度与稳定性方面优于传统单一模型,有效提升了风电功率预测性能。; 适合人群:具备一定机器学习与深度学习理论基础,熟悉Matlab编程环境,从事新能源发电预测、电力系统调度、智能算法应用等相关领域的科研人员、工程技术人员及高校研究生。; 使用场景及目标:①应用于风电场实际运行中的短期功率预测,提高电网调度的安全性与可再生能源消纳效率;②为深度学习模型在复杂时序预测任务中的设计与优化提供实践范例,推动AI技术在能源系统智能化中的深度融合;③支持学术研究复现、课程项目设计与教学演示,帮助深入理解CNN、BiGRU与Attention机制的协同建模范式与实现细节。; 阅读建议:建议结合提供的Matlab代码进行动手实践,重点关注数据预处理流程、模型网络结构设计、超参数调优及训练收敛过程,鼓励尝试替换输入变量组合、调整网络层数或优化注意力结构,以进一步探究模型性能边界并提升预测鲁棒性。
内容概要:本文研究了基于Benders分解算法与输电网-配电网运营商(TSO-DSO)协调机制的双层优化模型,旨在有效应对新能源出力波动、负荷不确定性等对现代电力系统运行带来的挑战。模型上层由输电网运营商(TSO)负责全局资源优化与主网稳定性调控,下层由多个配电网运营商(DSO)实现本地分布式能源的灵活调度,通过Benders分解实现上下层之间的迭代协调与信息交互,从而在保障系统安全的前提下提升整体运行的经济性与鲁棒性。研究提供了完整的Matlab代码实现,涵盖数学建模、算法求解、收敛性分析及仿真结果可视化等环节,有助于深入理解双层优化架构在输配电网协同调度中的具体应用与技术细节。; 适合人群:具备电力系统分析、优化理论基础及一定Matlab编程能力的研究生、科研人员,以及从事电网调度、能源系统规划等相关领域的工程技术人员。; 使用场景及目标:①掌握Benders分解在电力系统双层优化问题中的建模与求解流程;②理解TSO-DSO协同机制下输配电网交互建模的核心思想与实现方法;③复现并拓展高水平学术论文中的优化模型,服务于科研项目攻关或实际工程仿真需求。; 阅读建议:建议结合凸优化理论、电力系统经济调度与Benders分解原理进行系统学习,优先运行并调试所提供的Matlab代码,调整关键参数以观察算法收敛行为与模型性能变化,从而深化对协调机制与优化机理的理解。
内容概要:本文档是一份关于经济学期刊论文复现的研究资料,聚焦核心议题“数字化转型能否促进企业的高质量发展”。文档构建了一个完整的量化分析框架,基于中国上市公司数据,实证探讨数字化转型对企业全要素生产率(TFP)及高质量发展的实际影响。内容涵盖数字化转型指标的构建、企业高质量发展评价体系的设计、计量经济模型的选择与应用(如固定效应模型、GMM方法),并提供Matlab代码实现全过程,包括数据处理、模型估计与稳健性检验。研究还系统梳理了OL、FE、LP、OP、GMM等多种全要素生产率的测算方法,为读者复现高水平经济学论文、深入理解数字经济时代的企业发展路径与政策含义提供了详尽的技术支持与理论指导。; 适合人群:具备扎实的经济学理论基础和较强的定量分析能力,熟悉Matlab或Python编程语言,正在从事经济管理、产业经济或数字经济等领域研究的研究生、高校教师及科研机构研究人员。; 使用场景及目标:①完整复现经济学顶刊论文的实证研究流程,掌握规范的学术研究范式;②学习并应用数字化转型与企业绩效间的因果识别策略,提升独立开展实证研究的能力;③为撰写学位论文、申报科研课题或编制政策咨询报告中涉及数字经济效应的章节提供直接的方法论参考和代码支持; 阅读建议:建议读者务必结合文档提供的数据与Matlab代码进行同步实操,重点钻研变量定义、模型设定、内生性处理和稳健性检验等关键环节,通过反复调试与验证,深刻领会高水平实证研究的严谨逻辑与技术细节,从而全面提升自身的科研素养与论文写作水平。
内容概要:本文围绕“绿电直连型电氢氨园区优化运行”开展创新性未发表研究,提出一种集成绿色电力直接供给、电解水制氢与合成氨工艺的多能耦合系统优化模型,旨在实现园区能源系统的低碳化、高效化与经济化运行。研究采用Matlab与Python编程语言,结合实际气象与负荷数据,构建涵盖电-氢-氨能量转换、存储与利用全过程的能量流、物质流及经济性协同优化框架,重点解决可再生能源出力波动导致的供需失衡问题,并通过优化电解槽、储氢罐、合成氨反应器等关键设备的运行策略与容量配置,提升系统对风光能源的就地消纳能力。文中配套提供完整的仿真代码、原始数据及Word格式论文,支持结果复现与模型拓展,具有较高的科研参考价值与工程应用潜力。; 适合人群:具备电力系统、能源工程、优化建模或新能源技术背景,从事综合能源系统、氢能利用、碳中和园区等相关领域研究的研发人员及硕士、博士研究生。; 使用场景及目标:①研究绿电直供模式下电-氢-氨多能系统协同运行机制与优化调度策略;②探索高比例可再生能源就地转化为高附加值化工产品的技术路径;③为工业园区实现深度脱碳与能源自洽提供决策支持;④作为学术论文撰写、课题申报或科研复现的高质量参考资料。; 阅读建议:建议结合Matlab与Python代码逐模块解析模型实现过程,重点关注目标函数构建、约束条件设定(如设备动态特性、能量平衡、安全边界)以及多场景仿真对比分析,宜在调试过程中调整权重系数与参数设置,深入理解系统灵敏度与优化机理,并尝试引入更多不确定性因素进行鲁棒性扩展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值