pattern recognition and machine learning 2.2 Multinomial Variables

（源自：http://isip.buaa.edu.cn/lichen/?p=376）

beta分布用于对二值随机变量建模，比如抛硬币实验。但如果随机变量可以取多个互斥的值呢？比如可能有 $pattern recognition and machine learning 2.2 Multinomial Variables$ 种选择。对于某个可以取 $pattern recognition and machine learning 2.2 Multinomial Variables$ 种互斥状态的随机变量我们可以用一个 $pattern recognition and machine learning 2.2 Multinomial Variables$ 维向量 $pattern recognition and machine learning 2.2 Multinomial Variables$ 来表示，其中一个元素 $pattern recognition and machine learning 2.2 Multinomial Variables$ 取1，剩下的位置取0。例如，如果我们有一个变量可以有 $pattern recognition and machine learning 2.2 Multinomial Variables$ 种状态，一个观察值恰好对应 $pattern recognition and machine learning 2.2 Multinomial Variables$ ，那么 $pattern recognition and machine learning 2.2 Multinomial Variables$ 可以表示成

$pattern recognition and machine learning 2.2 Multinomial Variables$

这种向量满足 $pattern recognition and machine learning 2.2 Multinomial Variables$ 。如果我们记 $pattern recognition and machine learning 2.2 Multinomial Variables$ 的概率为参数 $pattern recognition and machine learning 2.2 Multinomial Variables$ ，那么 $pattern recognition and machine learning 2.2 Multinomial Variables$ 的分布就是：a

$pattern recognition and machine learning 2.2 Multinomial Variables$

其中的 $pattern recognition and machine learning 2.2 Multinomial Variables$ ，而参数 $pattern recognition and machine learning 2.2 Multinomial Variables$ 满足 $pattern recognition and machine learning 2.2 Multinomial Variables$ 且 $pattern recognition and machine learning 2.2 Multinomial Variables$ ，因为它们代表概率。(2.26)的分布可以看成伯努利分布的一个多值泛化。可以看到这个分布式满足概率的归一化的：

$pattern recognition and machine learning 2.2 Multinomial Variables$

同时，

$pattern recognition and machine learning 2.2 Multinomial Variables$

考虑一个包含 $pattern recognition and machine learning 2.2 Multinomial Variables$ 个独立观察值 $pattern recognition and machine learning 2.2 Multinomial Variables$ 的数据集 $pattern recognition and machine learning 2.2 Multinomial Variables$ 相应的似然函数：

$pattern recognition and machine learning 2.2 Multinomial Variables$

可以看出似然函数和数量 $pattern recognition and machine learning 2.2 Multinomial Variables$ 有关：

$pattern recognition and machine learning 2.2 Multinomial Variables$

实际上是表示观察数据中 $pattern recognition and machine learning 2.2 Multinomial Variables$ 为1的观察值的个数。这在概率论中称为充分统计量。

为了找出boldsymbol{mu}的最大似然估计值，我们需要对 $pattern recognition and machine learning 2.2 Multinomial Variables$ 求极大值，并满足所有mu_k之和为1这个约束。引入拉朗格日乘子lambda，并极大化：

$pattern recognition and machine learning 2.2 Multinomial Variables$

对(2.31)式以 $pattern recognition and machine learning 2.2 Multinomial Variables$ 为自变量求导并令其导数为0，可得：

$pattern recognition and machine learning 2.2 Multinomial Variables$

把(2.32)带入约束 $pattern recognition and machine learning 2.2 Multinomial Variables$ 得到 $pattern recognition and machine learning 2.2 Multinomial Variables$ ，这样我们得到最大似然的解：

$pattern recognition and machine learning 2.2 Multinomial Variables$

这个实际上式N个观察值中那些 $pattern recognition and machine learning 2.2 Multinomial Variables$ 的实例所占百分比。

我们考虑给出 $pattern recognition and machine learning 2.2 Multinomial Variables$ 和N个数据观察值时， $pattern recognition and machine learning 2.2 Multinomial Variables$ 的联合概率分布。从（2.29）我们得到：

$pattern recognition and machine learning 2.2 Multinomial Variables$

这就是多项式分布，归一化系数是把 $pattern recognition and machine learning 2.2 Multinomial Variables$ 个对象划分成 $pattern recognition and machine learning 2.2 Multinomial Variables$ 组大小分别为 $pattern recognition and machine learning 2.2 Multinomial Variables$ 的可能划分总数。即：

$pattern recognition and machine learning 2.2 Multinomial Variables$

注意到变量m_k需要满足：

$pattern recognition and machine learning 2.2 Multinomial Variables$