目录

7.1,什么是朴素贝叶斯

7.2,极大似然估计

7.3,朴素贝叶斯分类器

7.4,朴素贝叶斯算法就程

7.5,朴素贝叶斯的优缺点



7.1,什么是朴素贝叶斯

在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数第七章---贝叶斯分类器,要么是决策条件分布第七章---贝叶斯分类器,但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布第七章---贝叶斯分类器,然后由第七章---贝叶斯分类器得出分类的结果。

贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法,对于分类问题来说,基于贝叶斯的分类器都是在概率已知的理想情况下,贝叶斯决策论考虑如何基于概率和误判损失来标记数据的类别,朴素贝叶斯法(Naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 第七章---贝叶斯分类器 ,利用贝叶斯定理求出后验概率最大的输出 第七章---贝叶斯分类器

假设有第七章---贝叶斯分类器种可能的类别标记,即第七章---贝叶斯分类器第七章---贝叶斯分类器是将一个真实标记为第七章---贝叶斯分类器的样本误分类为第七章---贝叶斯分类器所产生的损失,基于后验概率第七章---贝叶斯分类器可以获得将样本第七章---贝叶斯分类器分类为第七章---贝叶斯分类器所产生的期望损失,也即是在样本第七章---贝叶斯分类器上面的“条件风险”。(在这里的后验概率可以这样理解:在已知西瓜颜色,根蒂等的情况下,将此西瓜分类为第七章---贝叶斯分类器的条件概率)。

  • 条件风险第七章---贝叶斯分类器,这是将一个西瓜样本分类错误的条件风险。对于所有的数据样本集,我们的目标是想要最小化样本数据集的总体风险。
  • 样本集总体的风险第七章---贝叶斯分类器,也就是条件风险的期望值。

那么对于每一个样本数据集的条件风险,如果我们使得每一个样本的风险都达到最小化,那么我们的总体风险也必然是最小的,也就是第七章---贝叶斯分类器最小化,那么这就产生了贝叶斯判定准则:为了最小化总体的风险,只需要在每一个样本上选择哪个能使条件风险第七章---贝叶斯分类器最小的类别标记:第七章---贝叶斯分类器第七章---贝叶斯分类器被称为我们最优的贝叶斯分类器,与之对应的总体风险第七章---贝叶斯分类器被称为贝叶斯风险,1-第七章---贝叶斯分类器可以反映分类器所能达到的最好的性能。

现在假设我们的误判损失第七章---贝叶斯分类器可以写成如下形式:第七章---贝叶斯分类器,,现在我们对于数据集的总体样本的条件风险可以写为:第七章---贝叶斯分类器,这个式子是根据我们单个样本的条件风险得来的。(证明过程如下)

第七章---贝叶斯分类器

但是现在不要忘记,在我们目前所做的工作上,我们都是假设所有的概率都是已知的情况,但是现实的数据集特征很多,并且对于每一个特征,里面的取值也很多,所以我们要取得后验概率第七章---贝叶斯分类器很难计算出来。计算后验概率有两种方式,第一种是对于给定的数据集,我们可以直接通过建模第七章---贝叶斯分类器来直接的预测我们的标签类别第七章---贝叶斯分类器,这种预测方式称为判别式,另外一种是先对联合概率第七章---贝叶斯分类器进行建模,然后由此来获得我们的后验概率第七章---贝叶斯分类器,这种预测方式称为生成式模型。对于生成式模型,我们必然要考虑:

  • 条件概率第七章---贝叶斯分类器
  • 贝叶斯定理第七章---贝叶斯分类器也可以写为:第七章---贝叶斯分类器

其中第七章---贝叶斯分类器称为先验概率,可以根据我们的数据集通过频率来直接计算出来,比如西瓜的好和坏,我们可以通过统计个数进行统计出来,第七章---贝叶斯分类器是样本第七章---贝叶斯分类器相对于类标记第七章---贝叶斯分类器条件下的类条件概率,比如我现在确定我们的西瓜是好瓜的前提下,那么我们西瓜的颜色是青绿色的概率,第七章---贝叶斯分类器与我们的类别标记无关,因此估计第七章---贝叶斯分类器的问题最后就被我们转化为基于训练的数据集估计先验概率和条件概率第七章---贝叶斯分类器的问题。(先验概率,根据我们的大数定律,在样本数据集很多的情况下,我们可以使用频率进行估计),但是对于我们的后验概率,由于我们的样本有很多的特征,每一个特征对应于很多的取值,但是在每一个取值的样本对应的数量可能不是很多,所以我们此时不能使用频率进行估计。下面介绍如何估计我们的条件概率。

7.2,极大似然估计

估计类条件概率,一种常用的策略是先假设数据集具有某一种概率分布,在基于训练的样本对概率分布的参数进行估计,关于类别第七章---贝叶斯分类器的类条件概率是第七章---贝叶斯分类器,假设第七章---贝叶斯分类器具有确定的形式并且被参数向量第七章---贝叶斯分类器唯一确定,那么我们的任务就是利用训练集第七章---贝叶斯分类器估计参数第七章---贝叶斯分类器

第七章---贝叶斯分类器标示训练集第七章---贝叶斯分类器中第第七章---贝叶斯分类器类样本组成的集合,假设样本是独立同分布的,那么估计参数第七章---贝叶斯分类器对于数据集第七章---贝叶斯分类器的似然是:

第七章---贝叶斯分类器,之所以采用连乘,是因为假设我们各个样本之间式相互独立的。现在我们要对第七章---贝叶斯分类器进行似然估计,就是要寻找能最大化似然函数的的参数值第七章---贝叶斯分类器。数据计算过程中,可能造成数据产生下溢,所以我们常常采用对数似然。第七章---贝叶斯分类器,此时参数第七章---贝叶斯分类器的极大似然估计是:第七章---贝叶斯分类器,通过极大似然估计,我们可以求得样本的均值和方差,然后对于连续性属性,我们可以直接带入公式求得概率。

7.3,朴素贝叶斯分类器

  • 基于贝叶斯公式第七章---贝叶斯分类器来估计后验概率第七章---贝叶斯分类器的困难在于类条件概率第七章---贝叶斯分类器是所有属性的联合概率,很难从有限的训练数据集上直接获得,所以朴素贝叶斯采用了“属性条件的独立性假设”来估计,也就是对于所有的属性,假设为相互的独立,不对分类的结果产生任何的影响。基于属性独立性假设,:
  • 第七章---贝叶斯分类器,其中第七章---贝叶斯分类器标示属性的个数,第七章---贝叶斯分类器第七章---贝叶斯分类器在第第七章---贝叶斯分类器个属性上面的取值。对于所有的类别来说,第七章---贝叶斯分类器是相同的,我们的最小化分类错误率的贝叶斯最优分类器可以表示为:第七章---贝叶斯分类器。朴素贝叶斯的训练过程就是基于训练数据集,先根据大数定律估算先验概率,在为每一个属性估算条件概率。
  • 第七章---贝叶斯分类器表示训练集第七章---贝叶斯分类器中第第七章---贝叶斯分类器类样本组成的集合(第七章---贝叶斯分类器其实就是代表我们的每一种类别),如果样本足够充分,那么我们的先验概率可以表示为:第七章---贝叶斯分类器,对于离散的属性而言,让第七章---贝叶斯分类器表示第七章---贝叶斯分类器中在第第七章---贝叶斯分类器个属性上取值为第七章---贝叶斯分类器的样本组成的集合,我们可以表示出后验概率:第七章---贝叶斯分类器,如果是对于连续性数值,我们可以考虑密度函数,假定第七章---贝叶斯分类器,其中的第七章---贝叶斯分类器第七章---贝叶斯分类器代表第第七章---贝叶斯分类器类样本在第第七章---贝叶斯分类器个属性上面的均值和方差。第七章---贝叶斯分类器

特别注意,如果某个属性的值在训练数据集中没有与某一个类同时出现过,根据我们上面的条件概率估计,会出现概率为0的情况,因此无论该样本的其他属性的情况是什么样,结果可能都不是很合理,为了避免这种情况,在我们估计概率的值的时候,通常要进行平滑处理,常用拉普拉斯修正的方法,令第七章---贝叶斯分类器标示训练集第七章---贝叶斯分类器中可能出现的类别数目,第七章---贝叶斯分类器标示第第七章---贝叶斯分类器个属性可能的取值数,因此我们的先验概率和后验概率被标示为:

  • 先验概率:第七章---贝叶斯分类器,对于我们某一种类别,令其样本的个数+1,但是对于总体的样本,每一个分类都要+1,也就是分母需要加第七章---贝叶斯分类器,这个第七章---贝叶斯分类器就代表分类的个数。
  • 条件概率:第七章---贝叶斯分类器,在这里分母上加的也是第第七章---贝叶斯分类器个属性的分类的总数量。

7.4,朴素贝叶斯算法就程

我们假设训练的数据集有第七章---贝叶斯分类器个样本和第七章---贝叶斯分类器个维度,一共有第七章---贝叶斯分类器个特征的输出类别,分别是第七章---贝叶斯分类器,每一个特征输出的类别的样本个数为第七章---贝叶斯分类器,在第第七章---贝叶斯分类器个类别中,如果是离散的特征,那么特征第七章---贝叶斯分类器各个类别的取值为第七章---贝叶斯分类器第七章---贝叶斯分类器取值为1,2,3....第七章---贝叶斯分类器第七章---贝叶斯分类器为特征第七章---贝叶斯分类器不同的取值数。算法输出为样本集第七章---贝叶斯分类器的分类结果。

算法流程:

  • 如果没有先验概率,那么就先计算第七章---贝叶斯分类器第七章---贝叶斯分类器个先验概率。第七章---贝叶斯分类器,否则第七章---贝叶斯分类器输出为先验概率。
  • 分别计算第第七章---贝叶斯分类器个类别的第第七章---贝叶斯分类器维特征的第第七章---贝叶斯分类器个取值的条件概率。第七章---贝叶斯分类器
    • 如果是离散值,第七章---贝叶斯分类器第七章---贝叶斯分类器可以取值为1或者其他大于0的数字。
    • 如果是稀疏二项离散值,第七章---贝叶斯分类器,此时第七章---贝叶斯分类器只有两种取值。
    • 入过是连续值不需要计算各个第七章---贝叶斯分类器的取值概率,直接求正态分布的参数。第七章---贝叶斯分类器,需要求出第七章---贝叶斯分类器第七章---贝叶斯分类器,这两个量分别代表均值和方差。
    • 对于数据集第七章---贝叶斯分类器,分别计算第七章---贝叶斯分类器的概率。
    • 最后确定数据集的分类结果,第七章---贝叶斯分类器.
    • 在整个的计算过程中,没有复杂的矩阵运算,所以贝叶斯算法运算速度很快。

第七章---贝叶斯分类器

7.5,朴素贝叶斯的优缺点

优点:

  • 在较少数据集的情况下仍然可以处理数据,可以处理多分类问题。
  • 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
  • 对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。
  • 对缺失数据不太敏感,算法也比较简单,常用于文本分类。

缺点:

  • 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
  • 需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
  • 由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。
  • 对输入数据的表达形式很敏感。

参考资料:

[1]《机器学习》周志华著

[2] https://www.cnblogs.com/pinard/p/6069267.html

[3] https://www.cnblogs.com/pinard/p/6069267.html

 

相关文章:

猜你喜欢
  • 2021-07-01
  • 2021-05-12
  • 2021-08-02
  • 2021-12-17
  • 2022-12-23
  • 2021-11-19
  • 2021-08-09
相关资源
相似解决方案