统计学习方法——第四章：朴素贝叶斯

朴素贝叶斯

（1）该算法的理论核心是贝叶斯定理；
（2）它是基于条件独立性假设这个强假设之下的，这也是该算法为什么称为“朴素”的原因。
目的：学习联合概率分布P（Y/X）
所以要先学习先验概率P（Y）和后验概率P（X/Y）我们要使用贝叶斯公式

后验概率（X/Y）：

统计学习方法——第四章：朴素贝叶斯
为什么是这么多个参数？
这里的参数其实指的是P（Xi/Yi）=u的对应值u，因为我们没有其他办法获取，只能测量，即从样本中数出P（Xi/Yi）的发生概率
在这里加入条件独立性假设，即假设X条件独立会牺牲分类准确性
统计学习方法——第四章：朴素贝叶斯
这种情况下，参数个数为K(S1+S2+S3-----SN)，优化明显

计算P（Y/X）

我们要计算给定X情况下y=yk的概率
统计学习方法——第四章：朴素贝叶斯
带入上式：这里直接将P(Y=yl/X)表示成f(X)，只是书写方式由条件概率函数变为决策函数
并且加入argmax通俗来说，就是想知道在相同的特征组合x的情况下，y最可能属于哪一类这里等价于损失函数最小化或者期望风险最小化，后面证明。
统计学习方法——第四章：朴素贝叶斯
由于上式分母对所有的ck都是相同的，都是计算P(X=x)因为我们是给定X=x，求不同y下的值。比如说X=x下求y=1和y=-1的值，所以最大化的其实是分子部分
即：

损失函数

我们使用0-1损失函数，即期望风险函数可以表示为：
统计学习方法——第四章：朴素贝叶斯
进一步的，E(L(Y,f(X)))等于概率乘以取值

相对的，我们的目的试求期望风险函数最小，约等价于对每一个X=x逐个最小化，所以我们单独拿出X=x来分析：

这里第一步到第二步的转化，因为
当ck=y时发生概率为P（ck/X），L=0
当ci!=y时发生概率为P（ci/X），L=1
值乘以期望，得到第二步，其实只是剔除了ck=y的项。
最后转化为使得P(y=ck/X=x)的最大项，就是使得预测正确发生概率最大
所以，期望风险最小化转化为后验概率最大化

参数估计

原本下面的参数，指的是包括训练集和的所有集合的概率统计，但是因为数据不够，我们只能假设训练集合足够大并反映样本空间的真实特征，即通过训练集和来计算下列的参数
统计学习方法——第四章：朴素贝叶斯

计算：极大似然估计

统计学习方法——第四章：朴素贝叶斯
实例:

计算：贝叶斯估计

有可能出现P（Y）或者P（X/Y）等于0的情况，那会影响估计值，解决方法是加入一个参数
其中λ=0即为极大似然估计，λ=1即为拉普拉斯平滑。Sj指的是xi的取值个数，K指的是J的取值个数
统计学习方法——第四章：朴素贝叶斯

例子：
统计学习方法——第四章：朴素贝叶斯