简述
高斯混合模型是一种业界广泛使用的聚类算法,使用高斯分布作为参数模型,并使用期望最大(EM)算法进行训练。
高斯分布
高斯分布也被称为正态分布,是在自然界中广泛存在的一种分布形式。
高斯分布的概率密度函数:
其中:
μ表示均值,对应正态分布的中间位置,表示标准差,衡量数据微淘均值分散的程度。
例如人群的身高,可以用一个高斯分布来描述。
对于高维正态分布:
高斯混合模型
高斯混合模型是对高斯模型进行简单的扩展,使用多个高斯分布的组合来刻画数据分布。
例如考察人群中男女身高的分布,需要在模型中同时考虑男性和女性的身高,所以人群身高的总体高斯分布,可以看做人群中男性身高的高斯分布和女性身高高斯分布的叠加。
分布概率为K个高斯分布的叠加,为每个高斯模型所占的权重。
所以根据给定的数据,学习出对应的混合高斯分布参数,包括每个高斯分布的均值,标准差,以及每个高斯分布所站的权重,是EM算法要做的事情。
EM算法
已知
- 各个类的分布模型
- 采样数据
未知
- 采样数据分别来源于哪一类
- 各个模型参数
设有样本集:
则单个样本y的概率为:
样本集的联合概率为:
EM算法的迭代优化可以分为两步来进行,E-setp 求期望,M-step 求极大。
如果是求解单高斯分布的参数,可以使用极大似然估计,但求解混合高斯模型需要使用EM算法,其原因在于采样数据来源于哪一类是未知的。
EM算法的基本思路是:随机初始化一组模型参数,根据后验概率来更新Y的期望,然后用E(Y)替代Y求出新的模型参数,如此迭代直到模型参数趋于稳定。
EM算法
参考《统计学习方法》
概率模型有时既含有观测变量,又含有隐变量,如果概率模型的变量都是观测变量,可以直接使用极大似然估计法,或贝叶斯估计法估计模型参数,但是当模型含有隐变量时,就不能简单第使用这些估计方法,EM算法就是含有隐变量的概率模型参数的极大似然估计法。
观测变量和隐变量
上文中的红色划线部分称为一次实验,每次实验产生一个观测结果,正或反,该结果为观测变量。硬币A掷出的结果为隐变量。
有关于已知观测结果求解似然概率的问题可参考:
https://blog.csdn.net/jinzhichaoshuiping/article/details/70183456
参考:
https://blog.csdn.net/lin_limin/article/details/81048411
https://blog.csdn.net/sinat_36246371/article/details/55519006