"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

2.1章里涉及的x只有两个值：0/1，这太少了，这章允许x有K个离散的值。

它对x取这K个值得表示是用一个k维向量表示的，x也就变成了一个k维向量。例：如果x取值是k个值中的第三个，则表示为：

注意，x向量中的1只能有1个，体会一下他的实际意义，这样才能代表K个离散的值。

所以对某个特定的x出现的概率可以表示为：

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

其中 "模式识别与机器学习"读书笔记——2.2 Multinomial Variables ，对应x向量中每一个位置上出现1的概率。

期望为：(由于x是个向量，所以其每个位置上都有期望，所以期望也是个向量，这都很直观的)

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

插一句，这种问题的一般思考流程：

1、确定单个x出现的概率p(x|u)；

2、给定观察序列D，找出p(D|u)的表达式；

3、找到让这个p(D|u)最大的u，一般方法有取ln再求导，令其导数等于0，如果要normalize需要额外处理(比如引入拉格朗日子)；

4、知道p(D|u)后，求在N个样本中，出现各种可能的的x的概率，即分布。

按照上述流程

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

找最大的u，对p(D|u)取对数，再引入拉格朗日乘子得到：

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

需要让这个式子取最大值，求导令导数为0得到：

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

有因为需要normalize，故 "模式识别与机器学习"读书笔记——2.2 Multinomial Variables ，最后得到：

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

再求在N个样本中，出现各种可能的的x的概率，即分布。：(这是典型的概率问题了，单一情况概率*情况数)

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

其中：

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

2.2.1 The Dirichlet distribution

这章与前一节真的很像，而且仔细对比一下可以发现一些有趣的东西。

还是老道理，需要为那个概率{u}引入一个prior distribution，而不再是算出来的单一固定的值。

为了共轭性，确定了prior分布的形式是：

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

这就解释了为什么会有那些分布，不是凭空想象出来的，而是针对不同的情况，为了满足共轭性而构造出来的！

另外为了保证这些分布的性能，要有参数来调控。a1,a2,...,ak就是参数。

normalize一下，分布变成：

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

这个分布称作Dirichlet distribution

当然u不应该只有a确定，还应该与观测数据D有关，利用概率的规则与前面推导出的公式得：

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables

最终形式：

"模式识别与机器学习"读书笔记——2.2 Multinomial Variables