4. 朴素贝叶斯

简介

贝叶斯法则: $P (A | B) * P (B) = P (B | A) * P (A)$

定义
设输入空间X为n维向量的集合, 输出空间为类标记集合Y={ $c_{1}, c_{2}, . . ., c_{k}]$ , 输入为特征向量 $x \in X$ , 输出为类标记 $y \in Y$ , P(X,Y)是X和Y的联合概率分布, 训练数据集T={ $(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{n}, y_{n})$ }.
贝叶斯法通过训练数据集学习联合概率分布P(X,Y)
条件独立性假设:

P (X = x | Y = c_{k}) = P (X^{1} = x^{1}, . . ., X^{n} = x^{n} | Y = c_{k}) = \prod_{j = 1}^{n} P (X^{j} = x^{j} | Y = c_{k})

此处上标表示第j个特征,朴素贝叶斯法的重要前提

基本方法

朴素贝叶斯分类时, 对给定的输入x,通过学习到的模型计算后验概率分布 $P (Y = c_{k} | X = x)$ , 将后验概率最大的类作为x的类输出:

P (X = x) = \sum_{k} P (X = x \cap Y = c_{k}) = \sum_{k} (P (X = x | Y = c_{k}) * P (Y = c_{k})) P (Y = c_{k} | X = x) = \frac{P (X = x | Y = c_{k}) * P (Y = c_{k})}{P (X = x)} = \frac{P (X = x | Y = c_{k}) * P (Y = c_{k})}{\sum_{k} (P (X = x | Y = c_{k}) * P (Y = c_{k}))} 综合以上公式有: P (Y = c_{k} | X = x) = \frac{P (Y = c_{k}) * \prod_{j} P (X^{j} = x^{j} | Y = c_{k})}{\sum_{k} (P (Y = c_{k}) * \prod_{j} P (X^{j} = x^{j} | Y = c_{k}))} 也可表示为: y = f (x) = a r g m a x_{c_{k}} \frac{P (Y = c_{k}) * \prod_{j} P (X^{j} = x^{j} | Y = c_{k})}{\sum_{k} (P (Y = c_{k}) * \prod_{j} P (X^{j} = x^{j} | Y = c_{k}))} 上式分母对所有的k都相同, 所以有: y = a r g m a x_{c_{k}} P (Y = c_{k}) * \prod_{j} P (X^{j} = x^{j} | Y = c_{k}) 即使 [P (X = x | Y = c_{k}) * P (Y = c_{k}))] 由联合分布=条件分布*边缘分布的关系: P (x, y) = P (y | x) * P (x) = P (x | y) * P (y) 有如下: \begin{aligned} 1.损失函数的期望(离散): R_{e x p} (f) & = E [L (Y, f (X))] = \sum_{x} \sum_{y} L (y, f (x)) * P (x, y) \\ = \sum_{x} \sum_{y} L (y, f (x)) * P (y | x) * P (x) \\ = \sum_{x} (\sum_{y} L (y, f (x)) * P (y | x)) * P (x) \\ = \sum_{x} (\sum_{k = 1} L (c_{k}, y) * P (c_{k} | x)) * P (x) \\ = E_{x} (\sum_{k = 1} L (c_{k}, y) * P (c_{k} | x)) (E [g (X)] = \sum_{i} g (x_{i}) p_{i}) \end{aligned} \begin{aligned} 2.损失函数的期望(连续): R_{e x p} (f) & = E [L (Y, f (X))] = \int_{x} \int_{y} L (y, f (x)) * P (x, y) d x d y \\ = \int_{x} \int_{y} L (y, f (x)) * P (y | x) * P (x) * d x d y \\ = \int_{x} (\int_{y} L (y, f (x)) * P (y | x) d y) P (x) d x \\ = E_{x} (\int_{y} L (y, f (x)) * P (y | x) d y) (E [g (X)] = \int g (x) f (x) d x) \end{aligned} 以离散变量为例, 为了使期望最小化, 只需对X=x逐个极小化, 即: \begin{aligned} f (x) & = a r g m i n_{y} \sum_{k = 1}^{K} L (c_{k}, y) * P (c_{k} | X = x) \\ = a r g m i n_{y} \sum_{k = 1}^{K} P (y \neq c_{k} | X = x) 次处L为0-1损失函数 \\ = a r g m i n_{y} (1 - P (y = c_{k} | X = x)) \\ = a r g m a x_{y} P (y = c_{k} | X = x) \end{aligned}

根据期望风险最小化就得到了后验概率最大化

参数估计

y = a r g m a x_{c_{k}} P (Y = c_{k}) * \prod_{j} P (X^{j} = x^{j} | Y = c_{k}) 先验概率的极大似然估计: P (Y = c_{k}) = \frac{\sum_{i = 1}^{n} I (y_{i} = c_{k})}{n}, k = 1, 2, . . ., k 设第j个特征 x^{j} 的取值集合为 (a_{j 1}, a_{j 2}, . . ., a_{j S j}), 条件概率的极大似然估计为: P (X^{j} = a_{j l} | Y = c_{k}) = \frac{\sum_{i = 1}^{n} I (x_{i}^{j} = a_{j l}, y_{i} = c_{k})}{\sum_{i = 1}^{n} I (y_{i} = c_{k})}, j = 1, 2, . . ., n; l = 1, 2, . . ., S_{j}; k = 1, 2, . . ., K 其中n代表训练数据集的数量, K代表分类数量, x_{i}^{j} 表示第i个样本的第j个特征, a_{j l} 第j个特征可能取的第l个值; P (X^{j} = a_{j l} | Y = c_{k}) 表示在 Y = c_{k} 条件下, 样本中第j个特征等于 a_{j l} 的概率

算法

4. 朴素贝叶斯

贝叶斯估计

当使用极大似然估计概率值时, 可能出现0的情况.
这时会影响到后验概率的计算结果, 试分类产生偏差.
解决方法是添加一个正数

P (X^{j} = a_{j l} | Y = c_{k}) = \frac{\sum_{i = 1}^{n} I (x_{i}^{j} = a_{j l}, y_{i} = c_{k}) + λ}{\sum_{i = 1}^{n} I (y_{i} = c_{k}) + S_{j} λ} (λ \geq 0)

但

λ

=0时就是极大似然估计; 常取

λ

=1, 称为拉普拉斯平滑.
显然对于任何

l = 1, 2, . . ., S_{j}

(

S_{j}

表示第j个特征共有

S_{j}

个可能取值),

k = 1, 2, . . ., K

有:

P_{λ} (X^{j} = a_{j l} | Y = c_{k}) > 0 \sum_{l = 1}^{S_{j}} P (X^{j} = a_{j l} | Y = c_{k}) = 1

先验概率的贝叶斯估计是:

P_{λ} (Y = c_{k}) = \frac{\sum_{i = 1}^{n} I (y_{i} = c_{k}) + λ}{n + K λ}