简述

高斯混合模型是一种业界广泛使用的聚类算法,使用高斯分布作为参数模型,并使用期望最大(EM)算法进行训练。

高斯分布

高斯分布也被称为正态分布,是在自然界中广泛存在的一种分布形式。

高斯分布的概率密度函数: 

高斯混合模型

其中:

μ表示均值,对应正态分布的中间位置,表示标准差,衡量数据微淘均值分散的程度。

例如人群的身高,可以用一个高斯分布来描述。

对于高维正态分布:

高斯混合模型

高斯混合模型

高斯混合模型是对高斯模型进行简单的扩展,使用多个高斯分布的组合来刻画数据分布。

例如考察人群中男女身高的分布,需要在模型中同时考虑男性和女性的身高,所以人群身高的总体高斯分布,可以看做人群中男性身高的高斯分布和女性身高高斯分布的叠加。

高斯混合模型

 

分布概率为K个高斯分布的叠加,为每个高斯模型所占的权重。

所以根据给定的数据,学习出对应的混合高斯分布参数,包括每个高斯分布的均值,标准差,以及每个高斯分布所站的权重,是EM算法要做的事情。

高斯混合模型

 

EM算法

已知

  1. 各个类的分布模型
  2. 采样数据

未知

  1. 采样数据分别来源于哪一类
  2. 各个模型参数

 

设有样本集:

高斯混合模型

则单个样本y的概率为:

高斯混合模型

样本集的联合概率为:

高斯混合模型

EM算法的迭代优化可以分为两步来进行,E-setp 求期望,M-step 求极大。

如果是求解单高斯分布的参数,可以使用极大似然估计,但求解混合高斯模型需要使用EM算法,其原因在于采样数据来源于哪一类是未知的。

EM算法的基本思路是:随机初始化一组模型参数,根据后验概率来更新Y的期望,然后用E(Y)替代Y求出新的模型参数,如此迭代直到模型参数趋于稳定。

 

EM算法

参考《统计学习方法》

概率模型有时既含有观测变量,又含有隐变量,如果概率模型的变量都是观测变量,可以直接使用极大似然估计法,或贝叶斯估计法估计模型参数,但是当模型含有隐变量时,就不能简单第使用这些估计方法,EM算法就是含有隐变量的概率模型参数的极大似然估计法。

观测变量和隐变量

高斯混合模型

上文中的红色划线部分称为一次实验,每次实验产生一个观测结果,正或反,该结果为观测变量。硬币A掷出的结果为隐变量

高斯混合模型

有关于已知观测结果求解似然概率的问题可参考:

https://blog.csdn.net/jinzhichaoshuiping/article/details/70183456

高斯混合模型

高斯混合模型

 

高斯混合模型

高斯混合模型

高斯混合模型

高斯混合模型

高斯混合模型

 

参考:

https://blog.csdn.net/lin_limin/article/details/81048411

https://blog.csdn.net/sinat_36246371/article/details/55519006

相关文章: