信息论基础——熵

最新推荐文章于 2025-12-08 20:21:43 发布

原创最新推荐文章于 2025-12-08 20:21:43 发布 · 878 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

数学准备专栏收录该内容

9 篇文章

订阅专栏

本文介绍了信息论中的熵，包括Jensen不等式、熵的定义、性质，以及联合熵、条件熵、互信息和相对熵的概念。熵作为衡量随机变量不确定性的度量，其基本性质和相关定理如最大熵原理、信息不等式等被详细阐述。此外，还讨论了互信息与变量独立的关系，以及条件互信息的概念。

信息论基础——熵

一、Jensen不等式
定理1 设 $f$ 为区间 $I$ 上的凹函数， $pi∈[0,1],i=1,2,⋯ ,np_{i} \in[0,1], i=1,2,\cdots,n$ ,且 $∑i=1npi=1\sum_{i=1}^{n} p_{i}=1$ ，则对任何 $xi∈Ix_{i} \in I$ ，有 $f(∑i=1npixi)⩾∑i=1npif(xi)f\left(\sum_{i=1}^{n} p_{i} x_{i}\right) \geqslant \sum_{i=1}^{n} p_{i} f\left(x_{i}\right)$

若 $f$ 严格凹，上式的等号只有在下列条件满足时才成立：若 $pi⋅pj≠0p_{i} \cdot p_{j} \neq 0$ ，则必有 $x_{i}=x_{j}$
证明：略
对于对数函数 $f(x)=log⁡xf(x)=\log x$ 在区间 $(0,+∞)(0,+\infty)$ 是凹函数，有 $log⁡(∑i=1npixi)⩾∑i=1npilog⁡xi\log \left(\sum_{i=1}^{n} p_{i} x_{i}\right) \geqslant \sum_{i=1}^{n} p_{i} \log x_{i}$ ， $∀i,xi>0,pi⩾0\forall i, x_{i}>0, p_{i} \geqslant 0$ ，且 $∑i=1npi=1\sum_{i=1}^{n} p_{i}=1$ 。

二、熵
一个离散随机变量 $X$ 的熵 $H (X)$ 的定义为 $H(X)=\sum_{X} P(X) \log \frac{1}{P(X)}=-\sum_{X} P(X) \log P(X)$ $log⁡P(X)\log P(X)$ 以为 $2$ 底，熵的单位是比特，以 $e$ 为底，熵的单位是奈特
熵是对随机变量的不确定性的度量。随机变量 $X$ 的熵越大，说明它的不确定性越大。
熵的基本性质
$(1)$ $\geqslant 0$
$(2)$ $\leqslant \log |X|$ ,等号成立当且仅当对 $X$ 的所有取值 $x$ 有 $P(X=x)=1∣X∣P(X=x)=\frac{1}{|X|}$

证明： $(1)$ 对 $X$ 的任意取值 $x$ ，总有 $\log P(X=x) \geqslant 0$
$(2)$ $H(X)=∑xP(X)log⁡1P(X)⩽log⁡∑XP(X)1P(X)=log⁡∣X∣\begin{aligned} H(X) &=\sum_{x} P(X) \log \frac{1}{P(X)} \\ & \leqslant \log \sum_{X} P(X) \frac{1}{P(X)}=\log |X| \end{aligned}$ 命题得证，此性质经常被称为最大熵原理

三、联合熵、条件熵和互信息
联合熵：两个离散随机变量 $X$ 和 $Y$ 的联合熵的定义为
$Y)=\sum_{X, Y} P(X, Y) \log \frac{1}{P(X, Y)}=-\sum_{X, Y} P(X, Y) \log P(X, Y)$
条件熵：给定 $Y = x$ 时 $X$ 的条件熵为
$Y=y)=\sum_{X} P(X | Y=y) \log \frac{1}{P(X | Y=y)}$
条件熵 $H (X ∣ Y = y)$ 度量的是已 $Y = y$ 知后， $X$ 的不确定性
由于知道 $Y$ 的概率分布，因此可以计算观测 $Y$ 后 $X$ 的熵的期望值，即
$H(X∣Y)=∑y∈ΩYP(Y=y)H(X∣Y=y)=∑y∈ΩYP(Y=y)∑XP(X∣Y=y)log⁡1P(X∣Y=y)=∑Y∑XP(Y)P(X∣Y)log⁡1P(X∣Y)=∑X,YP(X,Y)log⁡1P(X∣Y)\begin{aligned} H(X | Y) &=\sum_{y \in \Omega_{Y}} P(Y=y) H(X | Y=y) \\ &=\sum_{y \in \Omega_{Y}} P(Y=y) \sum_{X} P(X | Y=y) \log \frac{1}{P(X | Y=y)} \\ &=\sum_{Y} \sum_{X} P(Y) P(X | Y) \log \frac{1}{P(X | Y)} \\ &=\sum_{X, Y} P(X, Y) \log \frac{1}{P(X | Y)} \end{aligned}$ $H (X ∣ Y)$ 称为给定 $Y$ 时 $X$ 的条件熵
注意： $H (X ∣ Y)$ 与 $H (X ∣ Y = y)$ 有所不同，后者是在已知 $Y$ 取某一特定值 $y$ 时 $X$ 的条件熵，是在已知 $Y = y$ 后， $X$ 剩余的不确定性。而 $H (X ∣ Y)$ 则是在未知 $Y$ 的取值时，对观测到 $Y$ 的取值后 $X$ 剩余的不确定性的一个期望。
例: 设联合分布 $P (X, Y)$ 及边缘分布 $P (X)$ 和 $P (Y)$ 如下：

从而得 $\begin{array}{l}{H(X)=-\frac{1}{8} \log \frac{1}{8}-\frac{7}{8} \log \frac{7}{8}=0.544} \\ {H\left(X | Y=y_{1}\right)=-0 \log 0-1 \log 1=0} \\ {H\left(X | Y=y_{2}\right)=-\frac{1}{2} \log \frac{1}{2}-\frac{1}{2} \log \frac{1}{2}=1} \\ {H(X | Y)=\frac{3}{4} H\left(X | Y=y_{1}\right)+\frac{1}{4} H\left(X | Y=y_{2}\right)=0.25}\end{array}$
在观测到 $Y$ 前， $X$ 的不确定性是 $H (X)$ ，通过观测 $Y$ ，我们的期望 $X$ 的不确定性会变为 $H (X ∣ Y)$ ,因此 $H (X)$ 与 $H (X ∣ Y)$ 之差 $I (X; Y) = H (X) - H (X ∣ Y)$ 就是对 $Y$ 包含多少关于 $X$ 的信息的一个度量，称之为 $Y$ 关于 $X$ 的信息，下面可以看到 $I (X; Y) = I (Y; X)$ ，因此它又称为和之间的互信息
定理2 对任意两个离散随机变量 $X$ 和 $Y$ ，有 $\begin{array}{l}{I(X ; Y)=\sum_{X, Y} P(X, Y) \log \frac{P(X, Y)}{P(X) P(Y)}} \qquad(a)\\ {\qquad I(X ; Y)=I(Y ; X)}\qquad(b) \\ {H(X, Y)=H(X)+H(Y | X)=H(Y)+H(X | Y)} \qquad(c)\\ {I(X ; Y)+H(X, Y)=H(X)+H(Y)}\qquad(e)\end{array}$ 其中式 $(c)$ 称为熵的链规则
证明： $(1)$ 对式 $(a)$ ， $\begin{array}{l}{I(X ; Y)=H(X)-H(X | Y)} \\ {\quad=\sum_{X} P(X) \log \frac{1}{P(X)}-\sum_{X, Y} P(X, Y) \log \frac{1}{P(X | Y)}} \\ {=\sum_{X, Y} P(X, Y) \log \frac{1}{P(X)}-\sum_{X, Y} P(X, Y) \log \frac{1}{P(X | Y)}} \\ {=\sum_{X, Y} P(X, Y) \log \frac{P(X | Y)}{P(X)}} \\ {=\sum_{X, Y} P(X, Y) \log \frac{P(X, Y)}{P(X) P(Y)}}\end{array}$ $(2)$ 对式 $(b)$ ,由式 $(a)$ 的推导知显然成立
$(3)$ 对式 $(c)$ , $\begin{aligned} H(X, Y) &=-\sum_{X, Y} P(X, Y) \log P(X, Y) \\ &=-\sum_{X Y}^{X Y} P(X, Y) \log P(X)-\sum_{X Y} P(X, Y) \log P(Y | X) \\ &=-\sum_{X} P(X) \log P(X)-\sum_{X Y} P(X, Y) \log P(Y | X) \\ &=H(X)+H(Y | X) \end{aligned}$ 同理可证 $H (X, Y) = H (Y) + H (X ∣ Y)$
$(4)$ 对式 $(d)$ ，有 $I(X;Y)+H(X,Y)=(H(X)−H(X∣Y))+(H(Y)+H(X∣Y))=H(X)+H(Y)\begin{aligned} I(X ; Y)+H(X, Y) &=(H(X)-H(X | Y))+(H(Y)+H(X | Y)) \\ &=H(X)+H(Y) \end{aligned}$
定理得证. 下图为联合熵、条件熵以及互信息之间的关系

四、相对熵
对定义于随机变量 $X$ 的状态空间 $ΩX\Omega_{X}$ 上的两个概率分布 $P (X)$ 和 $Q (X)$ ，可以用相对熵来度量它们之间的差异，即有 $Q)=\sum_{x} P(X) \log \frac{P(X)}{Q(X)}$ 其中约定： $log⁡0q=0;plog⁡p0=∞\log \frac{0}{q}=0 ; \quad p \log \frac{p}{0}=\infty$
$∀p>0.KL(P,Q)\forall p>0 . K L(P, Q)$ 又被称为 $P (X)$ 和 $Q (X)$ 之间的 $\text { Kullback-Leibler }$ 距离，但它不是一个真正意义上的距离，因为 $\neq K L(Q, P)$
定理3 (信息不等式)
设 $P (X)$ 和 $Q (X)$ 为定义在某个变量 $X$ 的状态空间 $ΩX\Omega_{X}$ 的两个概率分布，则有 $\geqslant 0$ 其中，当且仅当 $P$ 与 $Q$ 相同，即 $\forall x \in \Omega _X$ 时等号成立
证明
$∑XP(X)log⁡P(X)Q(X)=−∑XP(X)log⁡Q(X)P(X)⩾−log⁡∑XP(X)Q(X)P(X)(Jensen不等式)=−log⁡∑XQ(X)=−log⁡1=0\sum_{X} P(X) \log \frac{P(X)}{Q(X)}=-\sum_{X} P(X) \log \frac{Q(X)}{P(X)}\\\geqslant-\log \sum_{{X}} P(X) \frac{Q(X)}{P(X)}(Jensen不等式)\\{=-\log \sum_{X} Q(X)} {=-\log 1=0}$ 定理得证
推论对于满足 $∑Xf(X)>0\sum_{X} f(X)>0$ 的非负函数 $f (X)$ ，定义概率分布 $P^{*}(X)$ 为
$P∗(X)=f(X)∑Xf(X)P^{*}(X)=\frac{f(X)}{\sum_{X} f(X)}$ 那么对于任意其它的概率分布 $P (X)$ ，则有 $∑Xf(X)log⁡P∗(X)⩾∑Xf(X)log⁡P(X)\sum_{X} f(X) \log P^{*}(X) \geqslant \sum_{X} f(X) \log P(X)$ 其中当且仅当 $P^*$ 与 $P$ 相同时等号成立
证明: 根据上述定理有 $L\left(P^{*}, P\right)=\sum_{X} P^{*}(X) \log \frac{P^{*}(X)}{P(X)} \geqslant 0$ 因此有 $∑XP∗(X)log⁡P∗(X)⩾∑XP∗(X)log⁡P(X)\sum_{X} P^{*}(X) \log P^{*}(X) \geqslant \sum_{X} P^{*}(X) \log P(X)$ 即 $∑Xf(X)∑Xf(X)log⁡P∗(X)⩾∑Xf(X)∑Xf(X)log⁡P(X)\sum_{X} \frac{f(X)}{\sum_{X} f(X)} \log P^{*}(X) \geqslant \sum_{X} \frac{f(X)}{\sum_{X} f(X)} \log P(X)$ 从而有 $∑Xf(X)log⁡P∗(X)⩾∑Xf(X)log⁡P(X)\sum_{X} f(X) \log P^{*}(X) \geqslant \sum_{X} f(X) \log P(X)$ 推论得证

五、互信息与变量独立
定理4 对任意两个离散随机变量 $X$ 和 $Y$ ，有
$(1)$ $\geqslant 0$
$(2)$ $\leqslant H(X)$
上面两式当且仅当 $X$ 和 $Y$ 相互独立时等号成立。
证明:由定理2中式 $Y)=\sum_{X, Y} P(X, Y) \log \frac{P(X, Y)}{P(X) P(Y)}$ 可得 $I (X; Y) = K L (P (X, Y), P (X) P (Y))$ 即 $I (X; Y)$ 是分布于 $P (X, Y)$ 和 $P (X) P (Y)$ 之间的相对熵,根据信息不等式， $\geqslant 0$ 当且仅当
$P (X, Y) = P (X) P (Y)$ 时等号成立。亦即 $I (X; Y) = 0$ ，当且仅当 $X$ 和 $Y$ 相互独立。由于 $I (X; Y) = H (X) - H (X ∣ Y)$ ，所以 $\leqslant H(X)$ ,且 $H (X ∣ Y) = H (X)$ 且仅当 $X$ 和 $Y$ 相互独立，定理得证。
定理4 从信息论角度为边缘独立这一概念提供了一个直观解释，即两个随机变量相互独立当且仅当它们之间的互信息为零。
条件熵 $H (X ∣ Z)$ 表示给定 $Z$ 时 $X$ 剩余的不确定性
再进一步给定 $Y$ ， $H (X ∣ Z, Y)$ 为 $X$ 剩余的不确定性
两者之差为给定 $Z$ 时观测 $Y$ 取值会带来的关于 $X$ 的信息量，即 $I (X; Y ∣ Z) = H (X ∣ Z) - H (X ∣ Z, Y)$ 称为给定 $Z$ 时 $Y$ 关于 $X$ 的信息。易证 $I (X; Y ∣ Z) = I (Y; X ∣ Z)$ ，因此 $I (X; Y ∣ Z)$ 也称为给定 $Z$ 时 $X$ 和 $Y$ 的条件互信息

定理5 对任意3个离散随机变量 $X, Y$ 和 $Z$ ，有
$(1)$ $\geqslant 0$
$(2)$ $\leqslant H(X | Z)$
上式两式当且仅当 $\perp Y|Z$ 时等号成立
证明： $I(X;Y∣Z)=H(X∣Z)−H(X∣Y,Z)=∑X,ZP(X,Z)log⁡1P(X∣Z)−∑X,Y,ZP(X,Y,Z)log⁡1P(X∣Y,Z)=∑X,Y,ZP(X,Y,Z)log⁡1P(X∣Z)−∑X,Y,ZP(X,Y,Z)log⁡1P(X∣Y,Z)=∑X,Y,ZP(X,Y,Z)log⁡P(X∣Y,Z)P(X∣Z)\begin{aligned} I(X ; Y | Z) &=H(X | Z)-H(X | Y, Z) \\ &=\sum_{X, Z} P(X, Z) \log \frac{1}{P(X | Z)}-\sum_{X, Y, Z} P(X, Y, Z) \log \frac{1}{P(X | Y, Z)} \\ &=\sum_{X, Y, Z} P(X, Y, Z) \log \frac{1}{P(X | Z)}-\sum_{X, Y, Z} P(X, Y, Z) \log \frac{1}{P(X | Y, Z)} \\ &=\sum_{X, Y, Z} P(X, Y, Z) \log \frac{P(X | Y, Z)}{P(X | Z)} \end{aligned}$ $\begin{array}{l}{=\sum_{Z} P(Z) \sum_{X, Y} P(X, Y | Z) \log \frac{P(X, Y | Z)}{P(X | Z) P(Y | Z)}} \\ {=\sum_{Z} P(Z) K L(P(X, Y | Z), P(X | Z) P(Y | Z))} \\ {\geqslant 0}\end{array}$ 当且仅当 $(P (X, Y ∣ Z) = P (X ∣ Z) P (Y ∣ Z)$ ,即 $\perp Y|Z$ 时等号成立
直观解释给定 $Z$ ，两个随机变量 $X$ 和 $Y$ 相互条件独立，当且仅当它们的条件互信息为零。