NNPR-Chap1 统计模式识别（8）贝叶斯准则

这里聊聊统计模式识别中的基本概念。

首先，考虑字符识别的问题（图1），目标是最小化错分概率。当收集大量数据（如图像）之后，可以算出某字符图像所占的比例，且这个玩意可以表示为先验概率。当我们猜一个图像（未看到图像）对应字符时，如果，一般会将其归为类对应的字符。这会最小化误分概率，基本我们知道会存在错分的情况。

图1

进一步，将图像转换为特征变量（字符高度与宽度比值），这会给分类决策带来更多信息（如图2）。C2类字符值大，两类概率直方图有重叠。对与A点，它更有可能属于类C1。

图2：横坐标为，纵坐标为类隶属概率

关键是如何构造一种机制，将特征变量信息同先验概率有效结合。首先将离散化为集合，然后将图2信息转换为单元阵列形式（图3），其中

1）联合概率：图像的特征变量值为且属于类Ck的概率。这等于一个图像掉到某个单元（蓝色框）的比例

2）先验概率：等于图像掉到单元阵列某行的比例（红色框）

3）条件概率：限定Ck对应单元矩阵行（红色框）情况下，图像掉到某单元（绿色框）的比例

图3

上面图像其实也告诉了我们联合概率与先验概率和条件概率的关系。从图可见，图像掉到某单元的比例（联合概率）＝它掉到某行比例（先验概率）*限定为某行下掉到某单元的比例（条件概率），即

，

同样，有。因为前面两式相等，因此得到著名的贝叶斯定理

（1）

1）后验概率：之所以叫这个名字，是因为它表示了当我们知道事物的表达（图像的特征值）后，它属于某类的概率

2）类条件概率；先验概率；归一化常量

后验概率可是关键东东（月光宝盒机），有了它我们可以分析新数据隶属某类概率，进而作出合理决策。比如，将新图像归为最大后验概率类可最小化误分概率。

1.推断和决策（Inference and decision）

很多时候，训练数据中概率分布与新数据中概率分布不同。比如，考虑用X光图像识别的是“正常组织”（类C1）还是“腫瘤”（类C1）的问题。从医学统计来看P(C1)=0.99，P(C2)=0.01。当收集训练数据时，总是收集数量相等的两类图像以保障能充分反应肿瘤图像的特点，而不是去收集非常大量的图像。这时候，应该使用医学统计结果来构造先验，而不是从训练数据中计算。

因而，统计模式识别方法之一就是分别计算先验概率和类条件概率，然后用贝叶斯准则将它们结合起来构造出后验概率（这就是generative methods）；另一种方法就是直接计算后验概率（即distriminative methods）

正确区分分类过程的两个阶段很重要（这里关注错分概率最小）：

1）首先是推断（inference）：利用数据确定后验概率

2）然后是决策（decision making)：利用后验概率做决策

2.贝叶斯统计VS频率统计

关于此主题的讨论很多，请看下面资料

1）Jordan非常精彩的论述，他的建议是充分理解两者，并合理利用。（该报告本人未完全听懂，有贤人能理解的请发表见解）

2）其他

http://www.sciencenet.cn/m/Print.aspx?id=11526

http://zhidao.baidu.com/question/81895295.html

http://www.cppblog.com/sosi/archive/2010/09/25/127624.aspx

3.概率密度

前面通过将连续值变量离散化为有限值集合来计算概率，但这样并不方便。对于连续值变量通过概率密度来描述。

基本的概念这里就不费口舌了。

4.贝叶斯定理

一公式以蔽之

对应前面介绍的两类问题

扩展到多类问题