概率机器学习中的互信息(Mutual Information)

本文介绍了信息论的基本概念,包括信息量、熵、联合熵、条件熵、相对熵、交叉熵等,并详细阐述了互信息的概念及其计算方法。

1.Mutual Information概念

互信息是信息论中用以评价两个随机变量之间的依赖程度的一个变量

2.信息论的基础概念

  • 信息量: 是对某个时间发生的概率的度量,通常来讲一个事件发生的概率越低,则这个事件包含的信息量越大。在现实生活中,越稀奇的新闻(发生的概率小)包含的信息量越大。香农提出了一个定量衡量信息量的公式:
    log1p=−logplog\frac{1}{p}=-logplogp1=logp

  • 熵(entropy): 衡量一个系统的稳定程度。其实就是一个系统所有变量信息量的期望或者均值。离散变量 公式为:
    H(X)=∑x∈XP(x)⋅log1P(x)=−∑x∈XP(x)logP(x)=−ElogP(X)H(X)=\sum_{x \in X} P(x) \cdot log \frac{1}{P(x)}=-\sum_{x\in X}P(x) logP(x)= -ElogP(X)H(X)=xXP(x)logP(x)1=xXP(x)logP(x)=ElogP(X)
    P(x)P(x)P(x)表示事件XXXxxx发生的概率。如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。连续变量,此时可以理解成它的概率密度函数,公式为:
    H(X)=∫P(x)⋅log1P(x)dxH(X)=\int P(x) \cdot log \frac{1}{P(x)}dxH(X)=P(x)logP(x)1dx

  • 联合熵(joint entropy): 多个联合变量的熵,也就是将熵的定义推广到多变量的范围。
    H(X,Y)=∑x∈X∑y∈YP(x,y)⋅log1P(x,y)=−∑x∈X∑y∈YP(x,y)logP(x,y)=−ElogP(X,Y)H(X,Y)=\sum_{x \in X} \sum_{y \in Y}P(x,y) \cdot log \frac{1}{P(x,y)}=-\sum_{x \in X} \sum_{y \in Y}P(x,y) logP(x,y)= -ElogP(X,Y)H(X,Y)=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值