朴素贝叶斯简单来说就是以贝叶斯原理为基础的根据先验概率计算出后验概率,然后选择概率较大的那一类作为分类结果的方法。

假设有样本数据集D={d1,d2,…,dn},样本对应的特征属性集为X={x1,x2,…,xd},类别变量为Y={y1,y2,…,ym},那么给出X的时候,如何估计类别变量Y呢

根据贝叶斯定理,有

Naive Bayesian

其中P(Y)称为先验概率,P(Y|X)称为后验概率,P(X|Y)/P(X)称为可能性函数

这时,再假设特征各特征之间互相独立(朴素思想的体现),根据全概率公式,类别为yi的概率为

Naive Bayesian

举一个来自于https://www.bilibili.com/video/av36338359?from=search&seid=7919712705936593079的例子

Naive Bayesian

根据上面的公式

Naive Bayesian

Naive Bayesian

根据上表

Naive Bayesian

Naive Bayesian

Naive Bayesian

以上是针对特征为离散变量的情况,特征为连续变量时,可以使用高斯分布对其概率密度进行估计,即假设连续变量服从高斯分布

Naive Bayesian

比如,给男生加一个经济收入这一项

Naive Bayesian

其他条件不变,如果某男生(帅,性格不好,不上进,经济收入4k),则嫁里面经济收入均值为4.8,标准差假设为2,则可以计算出

P(收入=4k|嫁)

同理,可以计算出

P(收入=4k|不嫁)

即可以得出最终结果

 

 

相关文章: