机器学习笔记之贝叶斯分类

先验概率和后验概率
先验概率：根据以往经验和分析得到的概率。
后验概率：后验概率是基于新的信息，修正原来的先验概率后所获得的更接近实际情况的概率估计。
实际上先验概率就是在没有任何结果出来的情况下估计的概率，而后验概率则是在有一定依据后的重新估计，直观意义上后验概率就是条件概率。
贝叶斯公式
$P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^{n}P(A|B_j)P(B_j)}$
试验E的样本空间为S，A为E的事件， $B_1,B_2,\cdots,B_n$ 为S的一个划分，且 $P(A)>0$ , $P(B_i)>0(i=1,2,\cdots,n)$ 。
贝叶斯决策论
基于概率框架下的决策实施理论。
给定N个类别，令 $\lambda_{ij}$ 表示将第j类样本误分为第i类所产生的损失。则基于后验概率将样本x分到第i类的条件风险为： $R(c_i|x)=\sum\limits_{i=1}^{N}\lambda_{ij}P(c_j|x)$
贝叶斯判定准则：最小化总体条件风险
贝叶斯最优分类器： $h^{(*)}(x)=\argmin \limits_{c\in y}R(c|x)$ ,
$y=c_1,c_2,\cdots,c_N$
贝叶斯风险：总体风险, $1-R$ 反映了学习性能的理论上限
生成式模型
由于 $P(c_j|x)$ 难以直接获得，有两种基本策略：判别式模型(如决策树、神经网络、SVM)和生成式模型。
生成式模型：先对联合概率分布 $P(x,c)$ 建模，再由此获得 $P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P(x|c)P(c)}{P(x)}$
$P(x)$ 为证据因子，与类别无关。
$P(c)$ 为先验概率，可通过样本中各类别样本出现的频率进行估计
$P(x|c)$ 为样本相对于类标记的类条件概率，也称似然，它的估计为主要困难。
极大似然估计
先假设某种概率分布形式，再基于训练样例对参数进行估计。
假定 $P(x|c)$ 具有某种概率分布形式，且被参数 $\theta_c$ 唯一确定，那么任务就是利用训练集D来估计参数 $\theta_c$ 。记 $P(x|c)=P(x|\theta_c)$ 。
设 $D_c$ 为D中第c类的样本组成的集合，假设这些样本独立同分布，则参数 $\theta_c$ 关于数据集 $D_c$ 的似然为： $P(D_c|\theta_c)=\prod\limits_{x\in D_c}P(x|\theta_c)$
采用对数似然，化连乘为求和：
$LL(\theta_c)=\log P(D_c|\theta_c)=\sum\limits_{x\in D_c}\log P(x|\theta_c)$
那么 $\theta_c$ 的极大似然估计为 $\hat\theta_c=\argmax\limits_{\theta_c}LL(\theta_c)$ 。
朴素贝叶斯分类器
#. 对上面的似然估计而言，所有属性上的联合概率估计难以从有限训练样本估计获得，朴素贝叶斯分类器假设所有属性相互独立，从而： $P(x|c)=\prod\limits_{i=1}^{d}P(x_i|c)$ ,
$P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P(x|c)P(c)}{P(x)}$ 中 $P(x)$ 对所有类别相同，于是： $h_{nb}(x)=\argmax_{c\in y}P(c)\prod\limits_{i=1}^{d}P(x_i|c)$ .
估计 $P(c)$ ： $P(c)=\frac{|D_c|}{|D|}$ ;
估计 $P(x|c)$ ： $P(x_i|c)=\frac{|D_{c,x_i}|}{|D_c|}$ (离散属性)
$D_{c,x_i}$ 表示 $D_c$ 在第i个属性上取值为 $x_i$ 的样本集合；
#.拉普拉斯修正
为了避免其他属性携带的信息被训练集中未出现的属性值"抹去’，在估计概率值时通常要进行"平滑" (smoothing) ，常用"拉普拉斯修正"。
令N表示训练集D中可能的类别数， $N_i$ 表示第i个属性可能的类别数。
$\hat{P(c)}=\frac{|D_c|+1}{|D|+N}$ ;
$P(x_i|c)=\frac{|D_{c,x_i}|+1}{|D_c|+N_i}$
这是假设属性值与类别均匀分布。
半朴素贝叶斯分类器
#.属性条件独立性假设往往很难成立，对此假设作一定程度的放松。半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息，从而既不需进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。

#.“独依赖估计” (One-Dependent Estimator，简称ODE)是半朴素贝叶斯分类器最常用的一种策略.所谓"独依赖"就是假设每个属性在类别之外最多仅依赖于一个其他属性，即

其中， $pa_i$ 是 $x_i$ 依赖的属性，称为其父属性。

#. 如何确定父属性
SPODE：假设所有属性都依赖于同一个属性，即超父，然后通过交叉验证等模型选择方法确定超父属性。
AODE：AODE 尝试将每个属性作为超父来构建SPODE，然后将那些具有足够训练数据支撑的SPODE 集成起来作为最终结果。
EM算法
常用于估计参数隐变量。若参数 $\Theta$ 己知，则可根据训练数据推断出最优隐变量Z 的值(E 步) ;反之，若Z 的值已知，则可方便地对参数 $\Theta$ 做极大似然估计(M 步) 。 EM 算法使用两个步骤变替计算:第一步是期望(E)步，利用当前估计的参数值来计算对数似然的期望值;第二步是最大化(M)步，寻找能使E 步产生的似然期望最大化的参数值。然后，得到的参数值重新被用于E 步 ……直至收敛到局部最优解.