高斯混合模型

高斯混合模型是一种业界广泛使用的聚类算法，使用高斯分布作为参数模型，并使用期望最大（EM）算法进行训练。

高斯分布也被称为正态分布，是在自然界中广泛存在的一种分布形式。

高斯分布的概率密度函数：

高斯混合模型

其中：

μ表示均值，对应正态分布的中间位置，表示标准差，衡量数据微淘均值分散的程度。

例如人群的身高，可以用一个高斯分布来描述。

对于高维正态分布：

高斯混合模型

高斯混合模型是对高斯模型进行简单的扩展，使用多个高斯分布的组合来刻画数据分布。

例如考察人群中男女身高的分布，需要在模型中同时考虑男性和女性的身高，所以人群身高的总体高斯分布，可以看做人群中男性身高的高斯分布和女性身高高斯分布的叠加。

高斯混合模型

分布概率为K个高斯分布的叠加，为每个高斯模型所占的权重。

所以根据给定的数据，学习出对应的混合高斯分布参数，包括每个高斯分布的均值，标准差，以及每个高斯分布所站的权重，是EM算法要做的事情。

高斯混合模型

未知

设有样本集：

高斯混合模型

则单个样本y的概率为：

高斯混合模型

样本集的联合概率为：

高斯混合模型

EM算法的迭代优化可以分为两步来进行，E-setp 求期望，M-step 求极大。

如果是求解单高斯分布的参数，可以使用极大似然估计，但求解混合高斯模型需要使用EM算法，其原因在于采样数据来源于哪一类是未知的。

EM算法的基本思路是：随机初始化一组模型参数，根据后验概率来更新Y的期望，然后用E（Y）替代Y求出新的模型参数，如此迭代直到模型参数趋于稳定。

参考《统计学习方法》

概率模型有时既含有观测变量，又含有隐变量，如果概率模型的变量都是观测变量，可以直接使用极大似然估计法，或贝叶斯估计法估计模型参数，但是当模型含有隐变量时，就不能简单第使用这些估计方法，EM算法就是含有隐变量的概率模型参数的极大似然估计法。

观测变量和隐变量

高斯混合模型

上文中的红色划线部分称为一次实验，每次实验产生一个观测结果，正或反，该结果为观测变量。硬币A掷出的结果为隐变量。

高斯混合模型

有关于已知观测结果求解似然概率的问题可参考：

高斯混合模型

参考：