信息熵、条件熵、信息增益

一、信息熵 

H(D) = -\sum_{i=1}^{k} p_{i}log p_{i}

p_{i} = \frac{C_{i} }{D}

其中:

p_{i} :样本属于第i个类别的概率

D :总样本数

C_{i}:集合 D 中属于第 i 个类别的样本个数

二、条件熵

条件熵是在给定某个特征的情况下,对于分类结果的不确定性的度量。

  • 条件熵越大,说明在给定该特征的情况下,样本的分类结果越不确定,即样本的混乱程度越
  • 条件熵较小,说明在给定该特征的情况下,样本的分类结果越趋向于一致,即样本的混乱程度越

当一个特征的取值数目较多时,它可以将样本划分为更多的子集,这样可以更好地区分不同类别的样本,从而降低条件熵。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值