简介
贝叶斯法则: P(A|B)∗P(B)=P(B|A)∗P(A)
定义
设输入空间X为n维向量的集合, 输出空间为类标记集合Y={c1,c2,...,ck], 输入为特征向量x∈X, 输出为类标记y∈Y, P(X,Y)是X和Y的联合概率分布, 训练数据集T={(x1,y1),(x2,y2),...,(xn,yn)}.
贝叶斯法通过训练数据集学习联合概率分布P(X,Y)
条件独立性假设:
P(X=x|Y=ck)=P(X1=x1,...,Xn=xn|Y=ck)=∏j=1nP(Xj=xj|Y=ck)
此处上标表示第j个特征,朴素贝叶斯法的重要前提
基本方法
朴素贝叶斯分类时, 对给定的输入x,通过学习到的模型计算后验概率分布P(Y=ck|X=x), 将后验概率最大的类作为x的类输出:
P(X=x)=∑kP(X=x∩Y=ck)=∑k(P(X=x|Y=ck)∗P(Y=ck))P(Y=ck|X=x)=P(X=x|Y=ck)∗P(Y=ck)P(X=x)=P(X=x|Y=ck)∗P(Y=ck)∑k(P(X=x|Y=ck)∗P(Y=ck))综合以上公式有: P(Y=ck|X=x)=P(Y=ck)∗∏jP(Xj=xj|Y=ck)∑k(P(Y=ck)∗∏jP(Xj=xj|Y=ck))也可表示为: y=f(x)=argmaxckP(Y=ck)∗∏jP(Xj=xj|Y=ck)∑k(P(Y=ck)∗∏jP(Xj=xj|Y=ck))上式分母对所有的k都相同, 所以有: y=argmaxckP(Y=ck)∗∏jP(Xj=xj|Y=ck)即使[P(X=x|Y=ck)∗P(Y=ck))]由联合分布=条件分布*边缘分布的关系:P(x,y)=P(y|x)∗P(x)=P(x|y)∗P(y)有如下: 1.损失函数的期望(离散): Rexp(f)=E[L(Y,f(X))]=∑x∑yL(y,f(x))∗P(x,y)=∑x∑yL(y,f(x))∗P(y|x)∗P(x)=∑x(∑yL(y,f(x))∗P(y|x))∗P(x)=∑x(∑k=1L(ck,y)∗P(ck|x))∗P(x)=Ex(∑k=1L(ck,y)∗P(ck|x))(E[g(X)]=∑ig(xi)pi)2.损失函数的期望(连续): Rexp(f)=E[L(Y,f(X))]=∫x∫yL(y,f(x))∗P(x,y)dxdy=∫x∫yL(y,f(x))∗P(y|x)∗P(x)∗dxdy=∫x(∫yL(y,f(x))∗P(y|x)dy)P(x)dx=Ex(∫yL(y,f(x))∗P(y|x)dy)(E[g(X)]=∫g(x)f(x)dx)以离散变量为例, 为了使期望最小化, 只需对X=x逐个极小化, 即: f(x)=argminy∑k=1KL(ck,y)∗P(ck|X=x)=argminy∑k=1KP(y≠ck|X=x)次处L为0-1损失函数=argminy(1−P(y=ck|X=x))=argmaxyP(y=ck|X=x)
根据期望风险最小化就得到了后验概率最大化
参数估计
y=argmaxckP(Y=ck)∗∏jP(Xj=xj|Y=ck)先验概率的极大似然估计: P(Y=ck)=∑i=1nI(yi=ck)n,k=1,2,...,k设第j个特征xj的取值集合为(aj1,aj2,...,ajSj),条件概率的极大似然估计为:P(Xj=ajl|Y=ck)=∑i=1nI(xji=ajl,yi=ck)∑i=1nI(yi=ck),j=1,2,...,n;l=1,2,...,Sj;k=1,2,...,K其中n代表训练数据集的数量, K代表分类数量, xji表示第i个样本的第j个特征, ajl第j个特征可能取的第l个值; P(Xj=ajl|Y=ck)表示在Y=ck条件下, 样本中第j个特征等于ajl的概率
算法

贝叶斯估计
当使用极大似然估计概率值时, 可能出现0的情况.
这时会影响到后验概率的计算结果, 试分类产生偏差.
解决方法是添加一个正数
P(Xj=ajl|Y=ck)=∑i=1nI(xji=ajl,yi=ck)+λ∑i=1nI(yi=ck)+Sjλ(λ≥0)
但λ=0时就是极大似然估计; 常取λ=1, 称为拉普拉斯平滑.
显然对于任何l=1,2,...,Sj(Sj表示第j个特征共有Sj个可能取值), k=1,2,...,K有:
Pλ(Xj=ajl|Y=ck)>0∑l=1SjP(Xj=ajl|Y=ck)=1
先验概率的贝叶斯估计是:
Pλ(Y=ck)=∑i=1nI(yi=ck)+λn+Kλ