朴素贝叶斯算法 --- Naive Bayes

朴素贝叶斯算法 — Naive Bayes

作者：Alex Hu
博客：https://blog.csdn.net/m0_37204267
转载请注明作者和出处。

朴素贝叶斯算法 — Naive Bayes

1. 数据符号

设输入空间 $X \subseteq R^{p}$ 为 $p$ 维的向量集合，输出空间为类标集合 $Y = {c_{1}, c_{2}, . . ., c_{k}}$ 。输入特征向量 $x \in X, x = (x^{1}, x^{2}, . . ., x^{p})$ ，输出为类标 $y \in Y$ 。 $X$ 是定义在输入空间 $X$ 上的随机向量， $Y$ 是定义在输出空间 $Y$ 上的随机向量。 $P (X, Y)$ 是 $X$ 和 $Y$ 的联合概率分布。训练数据集为

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}

由

P (X, Y)

独立同分布产生。

2. 表示 — 条件独立性假设

朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类算法。

该算法成立需要很强的条件独立性假设：在给定样本类别的情况下，样本的各个特征之间是独立的。 这种假设在实际中很难成立，通常情况下各个特征之间是有联系的。但是这种假设会使得计算变得简单，在一些应用（如文本分类）中取得了不错的效果。这种假设因为把特征间的联系给去掉了，想要取得更高的分类性能就比较困难。

若没有条件独立性假设，条件概率分布 $P (X = x | Y = c_{k})$ 有指数级数量的参数，要进行参数估计是不可行的。假设 $x^{j}$ 可能的取值有 $S_{j}$ 个， $j = 1, 2, . . ., m$ , $Y$ 可取值有 $K$ 个，那么参数个数为 $K \prod_{j = 1}^{m} S_{j}$ 。

朴素贝叶斯方法对条件概率分布作了条件独立性假设。具体的，条件独立性假设是

\begin{matrix} (1) & P (X = x | Y = c_{k}) = P (X^{1} = x^{1}, X^{2} = x^{2}, . . ., X^{p} = x^{p} | Y = c_{k}) = \prod_{j = 1}^{p} P (X^{j} = x^{j} | Y = c_{k}) \end{matrix}

需要的参数的个数为 $K (S_{j} - 1) p$ ，数量远小于上述参数。

3. 推理 — 基本方法

3.1 求联合概率分布

朴素贝叶斯算法通过训练数据集学习联合概率分布 $P (X, Y)$ 。具体方法是：通过先验概率分布 $P (Y = c_{k})$ 和条件概率分布 $P (X = x | Y = c_{k}) = P (X^{1} = x^{1}, X^{2} = x^{2}, . . ., X^{p} = x^{p} | Y = c_{k})$ 学习到联合概率分布 $P (X, Y)$ 。

3.2 求后验概率

根据贝叶斯定理，对给定的输入 $x$ ，通过学习的模型求得后验概率分布 $P (Y = c_{k} | X = x)$ , 将后验概率最大的类作为 $x$ 的类输出。

\begin{matrix} (2) & P (Y = c_{k} | X = x) = \frac{P (X = x | Y = c_{k}) P (Y = c_{k})}{\sum_{k} P (X = x | Y = c_{k}) P (Y = c_{k})} \end{matrix}

将公式(1)带入公式(2)得到

\begin{matrix} (3) & P (Y = c_{k} | X = x) = \frac{P (Y = c_{k}) \prod_{j = 1}^{p} P (X^{j} = x^{j} | Y = c_{k})}{\sum_{k} P (Y = c_{k}) \prod_{j = 1}^{p} P (X^{j} = x^{j} | Y = c_{k})} \end{matrix}

3.3 朴素贝叶斯分类器

公式(3)是朴素贝叶斯分类的基本公式。于是，朴素贝叶斯分类器可以表示为

\begin{matrix} (4) & y = f (x) = \arg max_{c_{k}} \frac{P (Y = c_{k}) \prod_{j = 1}^{p} P (X^{j} = x^{j} | Y = c_{k})}{\sum_{k} P (Y = c_{k}) \prod_{j = 1}^{p} P (X^{j} = x^{j} | Y = c_{k})} \end{matrix}

注意到公式(4)中分母对所有

c_{k}

都是相同的，所以，

\begin{matrix} (5) & y = f (x) = \arg max_{c_{k}} P (Y = c_{k}) \prod_{j = 1}^{p} P (X^{j} = x^{j} | Y = c_{k}) \end{matrix}

4 学习 — 参数估计

4.1 极大似然估计

从公式(5)中看出需要估计的参数有 $P (Y = c_{k})$ 和 $P (X^{j} = x^{j} | Y = c_{k})$ 。可以应用极大似然估计从原始的训练数据集中做简单统计，可以得到

\begin{matrix} (先验概率) & P (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k})}{N} k = 1, 2, . . ., K \end{matrix}

\begin{matrix} (似然概率) & P (X^{j} = a_{j l} | Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (X_{i}^{j} = a_{j l}, y_{i} = c_{k})}{\sum_{i = 1}^{N} I (y_{i} = c_{k})} i = 1, 2, . . ., N; l = 1, 2, . . ., S_{j}; k = 1, 2, . . . K \end{matrix}

其中

I (\cdot)

是指示函数，

x_{i}^{j}

表示第

i

个样本的第

j

个特征值。

4.2 贝叶斯估计 — 平滑处理

因为训练数据集数量很少，若出现某个类别或特征值未出现的情况，用极大似然估计的过程中，这些量的概率就为0，会影响后验概率的计算，使分类产生偏差。解决的方法是采用贝叶斯估计：

P (Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + λ}{N + K λ}

P_{λ} (X^{j} = a_{j l} | Y = c_{k}) = \frac{\sum_{i = 1}^{N} I (X_{i}^{j} = a_{j l}, y_{i} = c_{k}) + λ}{\sum_{i = 1}^{N} I (y_{i} = c_{k}) + S_{j} λ}

其中

λ > 0

。当

λ = 0

是就是最大似然估计，当

λ = 1

时称为拉普拉斯平滑。

个人理解，这里的 $λ$ 可以当作各个量的的先验知识。

5 统计决策理论 — 后验概率最大化

后验概率最大 ⟺ 期望风险最小化

假设选择0-1损失函数：

L (Y, f (X)) = {\begin{cases} 0 & Y \neq f (X) \\ 1 & Y = f (X) \end{cases}

其中

f (X)

是分类决策函数。这时，期望风险函数为

\begin{aligned} R_{e x p} (f) = E [L (Y, f (X))] & = \int_{X \times Y} L (y, f (x)) P (x, y) d x d y \\ = \int_{X \times Y} L (y, f (x)) P (x, y) d x d y \\ = \int_{X} [\int_{Y} L (y, f (x)) P (y | x) d y] P (x) d x \\ = \int_{X} E [Y | X = x] P (x) d x \end{aligned}

原始的期望是对联合概率分布

P (X, Y)

取得，经过转换后只考虑取得条件期望：

R_{e x p} (f) = E_{X} [\sum_{k = 1}^{K} L (c_{k}, f (X)) P (c_{k} | X)]

为了使期望风险最小化，只要对

X = x

逐个极小化，由此得到：

\begin{aligned} f (x) & = \arg min_{y \in Y} \sum_{k = 1}^{K} L (c_{k}, y) P (c_{k} | X = x) \\ = \arg min_{y \in Y} \sum_{k = 1}^{K} P (y \neq c_{k} | X = x) \\ = \arg min_{y \in Y} (1 - P (y = c_{k} | X = x)) \\ = \arg max_{y \in Y} P (y = c_{k} | X = x) \end{aligned}

这样一来，根据期望风险最小化准则就得到了后验概率最大化准则：

f (x) = \arg max_{c_{k}} P (c_{k} | X = x)

6 朴素贝叶斯与概率图的关系

朴素贝叶斯也是概率图模型中最简单的一种形式。下面给出朴素贝叶斯算法在概率图模型中的位置。
朴素贝叶斯算法 --- Naive Bayes

参考文献

[1] 李航. 统计学习方法. 清华出版社, 2012.
[2] 宗成庆. 统计自然语言处理(第二版). 清华大学出版社, 2013.
[3] 孙相国. 概率图模型4：贝叶斯网络. 2017.