• 前提:
  1. 将每个属性和类标签视为随机变量
  2. 给出某对象的属性值(x1,x2,…, xd),预测label值Y
  3. 换种说法,其实我们想求的是数据挖掘note5 朴素贝叶斯分类器

Bayes classifier 贝叶斯分类器

贝叶斯算法重要的理论基础:
数据挖掘note5 朴素贝叶斯分类器

问题提出与简化

数据挖掘note5 朴素贝叶斯分类器
将贝叶斯算法应用到该问题中,那我们可以将需要求的概率转化为:数据挖掘note5 朴素贝叶斯分类器
因为P(Y)和P(X1X2…Xd)是可以算出的,所以问题便转化为计算P(X1, X2, …, Xd | Y )

如何计算 P(X1, X2, …, Xd | Y )?

推导如下:
数据挖掘note5 朴素贝叶斯分类器

朴素贝叶斯分类器 naive bayes classifier

  • P(X1, X2, …, Xd | Y )=P(X1| Y )P(X2 | Y )…P(Xd|Y)
  • 有了上面的公式,现在我们就可以估计测试集中对应的P(Xi| Yj)啦!!
    数据挖掘note5 朴素贝叶斯分类器
根据数据估算概率

数据挖掘note5 朴素贝叶斯分类器
对于连续属性,有两种处理方法:
1、离散化
2、概率密度估计 :假设这个属性服从正态分布(normal distribution),通过数据来估算分布的参数(平均值、标准差),一旦知道概率分布,我们就可以用它来计算了。比如下图:
数据挖掘note5 朴素贝叶斯分类器

朴素贝叶斯存在的问题及改进
  • 问题:
    在这个公式中:数据挖掘note5 朴素贝叶斯分类器
    一旦有一个条件概率是0 ,那整个条件概率都是0
  • 改进方法
    1、一开始,我们有(Nc: number of instances in the class;Nc: number of instances in the class)数据挖掘note5 朴素贝叶斯分类器
    2、laplace方法进行改进 (c是number of class)
    数据挖掘note5 朴素贝叶斯分类器
    3、e-estimation(m是自己给定的参数,p是自己给的概率)
    数据挖掘note5 朴素贝叶斯分类器

朴素贝叶斯的总结

1、可以免疫单独的噪声点
2、在概率估计计算中,通过忽略实例来处理缺失值
3、robust对不相关属性
4、各属性之间相互独立不一定成立(不成立的时候,我们用BBN)

相关文章: