Python实现朴素贝叶斯分类器

朴素贝叶斯分类器



一、贝叶斯分类器是什么?

贝叶斯分类器是以贝叶斯决策论为基础的一类分类器。和频率决策论不同,贝叶斯决策论使用后验概率来计算将某个数据data分类为某一类c的风险概率。对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

贝叶斯判定准则

假设对于数据集D,有N种可能的类别标记,即 Y = { c 1 , c 2 . . . c n , } Y=\{c_{1},c_{2}...c_{n},\} Y={ c1,c2...cn,}, λ i j \lambda_{ij} λij是将一个真实标记为 c j c_{j} cj的样本误分类为 c i c_{i} ci的损失,基于后验概率 P ( c i ∣ x ) P(c_{i}|x) P(cix)可获得将样本x分类为 c i c_{i} ci所产生的期望损失,即在样本x上的“条件概率”。 R ( c i ∣ x ) = ∑ j = i N λ i j P ( c j ∣ x ) R(c_{i}|x)=\sum^{N}_{j=i}{\lambda_{ij}P(c_{j}|x)} R(cix)=j=iNλijP(cjx)
我们的任务就是寻找一个判定标准 h : X → Y h:X\rightarrow Y h:XY以最小化总体风险。
R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R(h)=E_{x}[R(h(x)|x)] R(h)=Ex[R(h(x)x)]
对于每个样本x,若h能以最小化条件风险R(h(x)|x),则总体风险R(h)也将被最小化。这就产生了贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记,即 h ∗ ( x ) = a r g m i n c ∈ Y R ( c ∣ x ) h^{*}(x)=arg\quad min_{c\in Y}{R(c|x)} h(x)=argmincYR(cx)此时, h ∗ h^{*} h称为贝叶斯最优分类器,与之对应的总体风险R(h*)称为在贝叶斯风险。
具体来说,若目标是最小化分类风险,那么 λ i j = { 0 i f i = j 1 o t h e r w i s e \lambda_{ij}=\begin{cases}0&if\quad i=j\\1&otherwise\end{cases} λij={ 01ifi=jotherwise
此时条件风险 R ( c ∣ x ) = 1 − P ( c ∣ x ) R(c|x)=1-P(c|x) R(cx)=1P(cx)于是,最小化分类错误率的贝叶斯最优分类器为 h ∗ ( x ) = a r g m a x c ∈ Y P ( c ∣ x ) ( 1.1 ) h^{*}(x)=arg\quad max_{c\in Y}P(c|x)\quad(1.1) h(x)=argmaxcYP(cx)(1.1)

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值