概率机器学习中的互信息（Mutual Information）

最新推荐文章于 2025-11-24 12:58:14 发布

原创

最新推荐文章于 2025-11-24 12:58:14 发布 · 2k 阅读

标签

#概率论 #机器学习

收录于

本文介绍了信息论的基本概念，包括信息量、熵、联合熵、条件熵、相对熵、交叉熵等，并详细阐述了互信息的概念及其计算方法。

互信息是信息论中用以评价两个随机变量之间的依赖程度的一个变量

信息量： 是对某个时间发生的概率的度量，通常来讲一个事件发生的概率越低，则这个事件包含的信息量越大。在现实生活中，越稀奇的新闻（发生的概率小）包含的信息量越大。香农提出了一个定量衡量信息量的公式：
$log1p=−logplog\frac{1}{p}=-logp$
熵（entropy）： 衡量一个系统的稳定程度。其实就是一个系统所有变量信息量的期望或者均值。离散变量 公式为：
$H(X)=∑x∈XP(x)⋅log1P(x)=−∑x∈XP(x)logP(x)=−ElogP(X)H(X)=\sum_{x \in X} P(x) \cdot log \frac{1}{P(x)}=-\sum_{x\in X}P(x) logP(x)= -ElogP(X)$
$P (x)$ 表示事件 $X$ 为 $x$ 发生的概率。如果一个系统越简单，出现情况种类很少（极端情况为1种情况，那么对应概率为1，那么对应的信息熵为0），此时的信息熵较小。连续变量，此时可以理解成它的概率密度函数，公式为：
$H(X)=∫P(x)⋅log1P(x)dxH(X)=\int P(x) \cdot log \frac{1}{P(x)}dx$
联合熵（joint entropy）： 多个联合变量的熵，也就是将熵的定义推广到多变量的范围。
$H(X,Y)=∑x∈X∑y∈YP(x,y)⋅log1P(x,y)=−∑x∈X∑y∈YP(x,y)logP(x,y)=−ElogP(X，Y)H(X,Y)=\sum_{x \in X} \sum_{y \in Y}P(x,y) \cdot log \frac{1}{P(x,y)}=-\sum_{x \in X} \sum_{y \in Y}P(x,y) logP(x,y)= -ElogP(X，Y)$