[贝叶斯二]之贝叶斯决策

生活中的许多决策都是不确定性的，比如明天是否下雨，我需要带伞么？这个时候就需要我们做出决策，如果认为明天会下雨，显然我们就会带上伞，否则不然。那么这个时候我们怎么判断我们的决策是否可信？又是否是最佳的决策呢？这个时候往往就需要引入评价准则(evaluation criteria)。不同的评价准则在相同的决策机制中往往会导致不同的决策结果。

贝叶斯决策常用的评价准则一般如下。

最小错误概率(The minimum probability of error, the decision is optimal in the sense of minimum PE).
最小风险误差(the minimum risk, the decision is optimal in the sense of minimum average risk).
个人准则(we should construct the decision rule to have maximum probability of detection while not allowing the probability of false alarm to exceed a certain value.)

一、贝叶斯决策理论

上述准则使用将在贝叶斯决策理论之后进行介绍。接下来，我们将详细的讲述贝叶斯决策理论。我们假设一个样本的特征向量 $x = [x_{1} x_{2} \dots \dots x_{l}]^{T}$ . 而这个样本可能属于的类别空间为 $Ω = {w_{1} w_{2} \dots \dots w_{M}}$ ，那么贝叶斯决策理论就是计算出每个后验概率(给出一个样本 $X$ ，计算出样本X属于类别 $w_{i}$ 的概率)，并找到最佳的类别 $w$ ，判别该样本属于 $w$ 。

i f P (w_{i} | x) \to m a x \Rightarrow x \to w_{i}

那么我们该如何计算出这个后验概率呢？答案当然是贝叶斯定理，如果我们能得到所有的先验概率

P (w_{1}), P (w_{2}) \dots \dots P (w_{M})

，以及样本

x

关于类别

w_{i}

的似然.

P (x | w_{i}), i = 1, 2, 3 \dots M \to m o d e l

.
我们假设用贝叶斯来做二分类问题，那么我们可以得到如下判决规则(decision rule)。

i f {\begin{cases} P (w_{1} | x) > P (w_{2} | x), & => decide x \in w_{1} \\ P (w_{1} | x) < P (w_{2} | x), & => decide x \in w_{2} \end{cases}

⇓

i f {\begin{cases} P (x | w_{1}) P (w_{1}) > P (x | w_{2}) P (w_{2}), & => decide x \in w_{1} \\ P (x | w_{1}) P (w_{1}) < P (x | w_{2}) P (w_{2}), & => decide x \in w_{2} \end{cases}

由此我们可以画一个简单的决策图。

根据上图可以知道，虚线就是我们想要找的一个决策线，虚线左边判决给类别1，虚线右侧判决给类别2。但是由该图我们可以清楚的知道，在阴影部分中(比如虚线左侧的阴影部分)，样本为类别2也是可能的。我们称这些阴影部分为决策失误域，这就是为什么决策需要一个决策准则(evaluation criteria )。

二、贝叶斯分类规则

2.1 决策错误概率(probability of decision error)

P (e r r o r | x) = {\begin{cases} P (w_{1} | x), & => if x \in w_{i} decision is w_{2} \\ P (w_{2} | x), & => if x \in w_{2} decision is w_{1} \end{cases}

由此我们可以得到(如果样本空间是连续的)，如果 $x$ 是属于 $w_{1}$ ，但是分类到了 $w_{2}$ ，这个时候产生的决策错误为如下。

P_{1} (e) = \int_{R_{2}} p (x | w_{1}) P (w_{1}) d x

如果x是属于w_2，但是分类到了w_1，这个时候产生的决策错误为如下。

P_{2} (e) = \int_{R_{1}} p (x | w_{2}) P (w_{2}) d x

$T o t a l E r r o r$ ： $P (e) = P_{2} (e) + p_{1} (e) =$ 阴影面积

由此我们可以得到一个结论，贝叶斯在最小错误概率(PE)准则中表现是最好的。如下图所示，贝叶斯找到的是 $x_{0}$ 作为分界线，该分解线划分所得到的错误概率(阴影部分的面积)永远是最小的，所以不可能会有一个算法MPE值比贝叶斯分类更小。因为不管如何移动该条分界线都会增加阴影部分面积。

[贝叶斯二]之贝叶斯决策

2.2 平均风险最小(minimizing the average risk)

在某些特定的场景下，平均风险最小化比错误率最低更加重要。比如当判决某个细胞是正常细胞还是癌细胞的时候，显然把一个正常细胞错判为癌细胞的风险要比把一个癌细胞错判为正常细胞的风险大很多，后者的错误是致命的。这个时候我们往往需要给错判的情况加上一个权重，用来显示风险的大小。

下面我们首先介绍一下风险矩阵，或者又称为损失矩阵。我们假设进行一个二分类的分类器设计。这个时候风险矩阵可以写成如下的式子。

L = [\begin{matrix} λ_{11} & λ_{12} \\ λ_{21} & λ_{22} \end{matrix}]

其中， $λ_{i j}$ 表示把第j类错分为第 $i$ 类的惩罚因子。显然对角线元素都为0。

那么这个时候，分类器判决为第1类的风险就可以用如下的式子表示。

r_{1} = λ_{11} P (w_{1} │ x) + λ_{12} P (w_{2} │ x)

如果样本空间是连续的我们可以改写成如下的式子。

[贝叶斯二]之贝叶斯决策

上述式子也是平均风险的定义式。
$注：$ 当 $λ_{11} = λ_{22} = 0 ， λ_{12} = λ_{21} = 1$ 的时候， $最小风险贝叶斯决策 = 最小错误率贝叶斯决策$ 。

其它平台只是信息转发(留言可能看不到)，欢迎同学们到个人blog交流：https://faiculty.com/

<个人网页blog已经上线，一大波干货即将来袭：https://faiculty.com/>