这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。

      与k-means一样,给定的训练样本是【转】混合高斯模型(Mixtures of Gaussians)和EM算法,我们将隐含类别标签用【转】混合高斯模型(Mixtures of Gaussians)和EM算法表示。与k-means的硬指定不同,我们首先认为【转】混合高斯模型(Mixtures of Gaussians)和EM算法是满足一定的概率分布的,这里我们认为满足多项式分布,【转】混合高斯模型(Mixtures of Gaussians)和EM算法,其中【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法有k个值{1,…,k}可以选取。而且我们认为在给定【转】混合高斯模型(Mixtures of Gaussians)和EM算法后,【转】混合高斯模型(Mixtures of Gaussians)和EM算法满足多值高斯分布,即【转】混合高斯模型(Mixtures of Gaussians)和EM算法。由此可以得到联合分布【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      整个模型简单描述为对于每个样例【转】混合高斯模型(Mixtures of Gaussians)和EM算法,我们先从k个类别中按多项式分布抽取一个【转】混合高斯模型(Mixtures of Gaussians)和EM算法,然后根据【转】混合高斯模型(Mixtures of Gaussians)和EM算法所对应的k个多值高斯分布中的一个生成样例【转】混合高斯模型(Mixtures of Gaussians)和EM算法,。整个过程称作混合高斯模型。注意的是这里的【转】混合高斯模型(Mixtures of Gaussians)和EM算法仍然是隐含随机变量。模型中还有三个变量【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法。最大似然估计为【转】混合高斯模型(Mixtures of Gaussians)和EM算法。对数化后如下:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这个式子的最大值是不能通过前面使用的求导数为0的方法解决的,因为求的结果不是close form。但是假设我们知道了每个样例的【转】混合高斯模型(Mixtures of Gaussians)和EM算法,那么上式可以简化为:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

       这时候我们再来对【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法进行求导得到:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法就是样本类别中【转】混合高斯模型(Mixtures of Gaussians)和EM算法的比率。【转】混合高斯模型(Mixtures of Gaussians)和EM算法是类别为j的样本特征均值,【转】混合高斯模型(Mixtures of Gaussians)和EM算法是类别为j的样例的特征的协方差矩阵。

实际上,当知道【转】混合高斯模型(Mixtures of Gaussians)和EM算法后,最大似然估计就近似于高斯判别分析模型(Gaussian discriminant analysis model)了。所不同的是GDA中类别y是伯努利分布,而这里的z是多项式分布,还有这里的每个样例都有不同的协方差矩阵,而GDA中认为只有一个。

      之前我们是假设给定了【转】混合高斯模型(Mixtures of Gaussians)和EM算法,实际上【转】混合高斯模型(Mixtures of Gaussians)和EM算法是不知道的。那么怎么办呢?考虑之前提到的EM的思想,第一步是猜测隐含类别变量z,第二步是更新其他参数,以获得最大的最大似然估计。用到这里就是:

循环下面步骤,直到收敛: {

      (E步)对于每一个i和j,计算

                  【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      (M步),更新参数:

                  【转】混合高斯模型(Mixtures of Gaussians)和EM算法

}

      在E步中,我们将其他参数【转】混合高斯模型(Mixtures of Gaussians)和EM算法看作常量,计算【转】混合高斯模型(Mixtures of Gaussians)和EM算法的后验概率,也就是估计隐含类别变量。估计好后,利用上面的公式重新计算其他参数,计算好后发现最大化最大似然估计时,【转】混合高斯模型(Mixtures of Gaussians)和EM算法值又不对了,需要重新计算,周而复始,直至收敛。

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法的具体计算公式如下:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这个式子利用了贝叶斯公式。

      这里我们使用【转】混合高斯模型(Mixtures of Gaussians)和EM算法代替了前面的【转】混合高斯模型(Mixtures of Gaussians)和EM算法,由简单的0/1值变成了概率值。

      对比K-means可以发现,这里使用了“软”指定,为每个样例分配的类别【转】混合高斯模型(Mixtures of Gaussians)和EM算法是有一定的概率的,同时计算量也变大了,每个样例i都要计算属于每一个类别j的概率。与K-means相同的是,结果仍然是局部最优解。对其他参数取不同的初始值进行多次计算不失为一种好方法。

      虽然之前再K-means中定性描述了EM的收敛性,仍然没有定量地给出,还有一般化EM的推导过程仍然没有给出。下一篇着重介绍这些内容。

 

 

(EM算法)The EM Algorithm

      EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。

下面主要介绍EM的整个推导过程。

1. Jensen不等式

      回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,【转】混合高斯模型(Mixtures of Gaussians)和EM算法,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(【转】混合高斯模型(Mixtures of Gaussians)和EM算法),那么f是凸函数。如果【转】混合高斯模型(Mixtures of Gaussians)和EM算法或者【转】混合高斯模型(Mixtures of Gaussians)和EM算法,那么称f是严格凸函数。

      Jensen不等式表述如下:

      如果f是凸函数,X是随机变量,那么

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      特别地,如果f是严格凸函数,那么【转】混合高斯模型(Mixtures of Gaussians)和EM算法当且仅当【转】混合高斯模型(Mixtures of Gaussians)和EM算法,也就是说X是常量。

      这里我们将【转】混合高斯模型(Mixtures of Gaussians)和EM算法简写为【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      如果用图表示会很清晰:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      图中,实线f是凸函数,X是随机变量,有0.5的概率是a,有0.5的概率是b。(就像掷硬币一样)。X的期望值就是a和b的中值了,图中可以看到【转】混合高斯模型(Mixtures of Gaussians)和EM算法成立。

      当f是(严格)凹函数当且仅当-f是(严格)凸函数。

      Jensen不等式应用于凹函数时,不等号方向反向,也就是【转】混合高斯模型(Mixtures of Gaussians)和EM算法

2. EM算法

      给定的训练样本是【转】混合高斯模型(Mixtures of Gaussians)和EM算法,样例间独立,我们想找到每个样例隐含的类别z,能使得p(x,z)最大。p(x,z)的最大似然估计如下:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      第一步是对极大似然取对数,第二步是对每个样例的每个可能类别z求联合分布概率和。但是直接求【转】混合高斯模型(Mixtures of Gaussians)和EM算法一般比较困难,因为有隐藏变量z存在,但是一般确定了z后,求解就容易了。

      EM是一种解决存在隐含变量优化问题的有效方法。竟然不能直接最大化【转】混合高斯模型(Mixtures of Gaussians)和EM算法,我们可以不断地建立【转】混合高斯模型(Mixtures of Gaussians)和EM算法的下界(E步),然后优化下界(M步)。这句话比较抽象,看下面的。

      对于每一个样例i,让【转】混合高斯模型(Mixtures of Gaussians)和EM算法表示该样例隐含变量z的某种分布,【转】混合高斯模型(Mixtures of Gaussians)和EM算法满足的条件是【转】混合高斯模型(Mixtures of Gaussians)和EM算法。(如果z是连续性的,那么【转】混合高斯模型(Mixtures of Gaussians)和EM算法是概率密度函数,需要将求和符号换做积分符号)。比如要将班上学生聚类,假设隐藏变量z是身高,那么就是连续的高斯分布。如果按照隐藏变量是男女,那么就是伯努利分布了。

可以由前面阐述的内容得到下面的公式:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      (1)到(2)比较直接,就是分子分母同乘以一个相等的函数。(2)到(3)利用了Jensen不等式,考虑到【转】混合高斯模型(Mixtures of Gaussians)和EM算法是凹函数(二阶导数小于0),而且

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      就是【转】混合高斯模型(Mixtures of Gaussians)和EM算法的期望(回想期望公式中的Lazy Statistician规则)

      设Y是随机变量X的函数【转】混合高斯模型(Mixtures of Gaussians)和EM算法(g是连续函数),那么

      (1) X是离散型随机变量,它的分布律为【转】混合高斯模型(Mixtures of Gaussians)和EM算法,k=1,2,…。若【转】混合高斯模型(Mixtures of Gaussians)和EM算法绝对收敛,则有

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      (2) X是连续型随机变量,它的概率密度为【转】混合高斯模型(Mixtures of Gaussians)和EM算法,若【转】混合高斯模型(Mixtures of Gaussians)和EM算法绝对收敛,则有

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      对应于上述问题,Y是【转】混合高斯模型(Mixtures of Gaussians)和EM算法,X是【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法,g是【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法的映射。这样解释了式子(2)中的期望,再根据凹函数时的Jensen不等式:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

可以得到(3)。

      这个过程可以看作是对【转】混合高斯模型(Mixtures of Gaussians)和EM算法求了下界。对于【转】混合高斯模型(Mixtures of Gaussians)和EM算法的选择,有多种可能,那种更好的?假设【转】混合高斯模型(Mixtures of Gaussians)和EM算法已经给定,那么【转】混合高斯模型(Mixtures of Gaussians)和EM算法的值就决定于【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法了。我们可以通过调整这两个概率使下界不断上升,以逼近【转】混合高斯模型(Mixtures of Gaussians)和EM算法的真实值,那么什么时候算是调整好了呢?当不等式变成等式时,说明我们调整后的概率能够等价于【转】混合高斯模型(Mixtures of Gaussians)和EM算法了。按照这个思路,我们要找到等式成立的条件。根据Jensen不等式,要想让等式成立,需要让随机变量变成常数值,这里得到:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      c为常数,不依赖于【转】混合高斯模型(Mixtures of Gaussians)和EM算法。对此式子做进一步推导,我们知道【转】混合高斯模型(Mixtures of Gaussians)和EM算法,那么也就有【转】混合高斯模型(Mixtures of Gaussians)和EM算法,(多个等式分子分母相加不变,这个认为每个样例的两个概率比值都是c),那么有下式:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      至此,我们推出了在固定其他参数【转】混合高斯模型(Mixtures of Gaussians)和EM算法后,【转】混合高斯模型(Mixtures of Gaussians)和EM算法的计算公式就是后验概率,解决了【转】混合高斯模型(Mixtures of Gaussians)和EM算法如何选择的问题。这一步就是E步,建立【转】混合高斯模型(Mixtures of Gaussians)和EM算法的下界。接下来的M步,就是在给定【转】混合高斯模型(Mixtures of Gaussians)和EM算法后,调整【转】混合高斯模型(Mixtures of Gaussians)和EM算法,去极大化【转】混合高斯模型(Mixtures of Gaussians)和EM算法的下界(在固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法后,下界还可以调整的更大)。那么一般的EM算法的步骤如下:

循环重复直到收敛 {

      (E步)对于每一个i,计算

                  【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      (M步)计算

                  【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      那么究竟怎么确保EM收敛?假定【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法是EM第t次和t+1次迭代后的结果。如果我们证明了【转】混合高斯模型(Mixtures of Gaussians)和EM算法,也就是说极大似然估计单调增加,那么最终我们会到达最大似然估计的最大值。下面来证明,选定【转】混合高斯模型(Mixtures of Gaussians)和EM算法后,我们得到E步

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这一步保证了在给定【转】混合高斯模型(Mixtures of Gaussians)和EM算法时,Jensen不等式中的等式成立,也就是

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      然后进行M步,固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法,并将【转】混合高斯模型(Mixtures of Gaussians)和EM算法视作变量,对上面的【转】混合高斯模型(Mixtures of Gaussians)和EM算法求导后,得到【转】混合高斯模型(Mixtures of Gaussians)和EM算法,这样经过一些推导会有以下式子成立:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      解释第(4)步,得到【转】混合高斯模型(Mixtures of Gaussians)和EM算法时,只是最大化【转】混合高斯模型(Mixtures of Gaussians)和EM算法,也就是【转】混合高斯模型(Mixtures of Gaussians)和EM算法的下界,而没有使等式成立,等式成立只有是在固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法,并按E步得到【转】混合高斯模型(Mixtures of Gaussians)和EM算法时才能成立。

      况且根据我们前面得到的下式,对于所有的【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法都成立

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      第(5)步利用了M步的定义,M步就是将【转】混合高斯模型(Mixtures of Gaussians)和EM算法调整到【转】混合高斯模型(Mixtures of Gaussians)和EM算法,使得下界最大化。因此(5)成立,(6)是之前的等式结果。

      这样就证明了【转】混合高斯模型(Mixtures of Gaussians)和EM算法会单调增加。一种收敛方法是【转】混合高斯模型(Mixtures of Gaussians)和EM算法不再变化,还有一种就是变化幅度很小。

      再次解释一下(4)、(5)、(6)。首先(4)对所有的参数都满足,而其等式成立条件只是在固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法,并调整好Q时成立,而第(4)步只是固定Q,调整【转】混合高斯模型(Mixtures of Gaussians)和EM算法,不能保证等式一定成立。(4)到(5)就是M步的定义,(5)到(6)是前面E步所保证等式成立条件。也就是说E步会将下界拉到与【转】混合高斯模型(Mixtures of Gaussians)和EM算法一个特定值(这里【转】混合高斯模型(Mixtures of Gaussians)和EM算法)一样的高度,而此时发现下界仍然可以上升,因此经过M步后,下界又被拉升,但达不到与【转】混合高斯模型(Mixtures of Gaussians)和EM算法另外一个特定值一样的高度,之后E步又将下界拉到与这个特定值一样的高度,重复下去,直到最大值。

      如果我们定义

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      从前面的推导中我们知道【转】混合高斯模型(Mixtures of Gaussians)和EM算法,EM可以看作是J的坐标上升法,E步固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法,优化【转】混合高斯模型(Mixtures of Gaussians)和EM算法,M步固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法优化【转】混合高斯模型(Mixtures of Gaussians)和EM算法

3. 重新审视混合高斯模型

      我们已经知道了EM的精髓和推导过程,再次审视一下混合高斯模型。之前提到的混合高斯模型的参数【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法计算公式都是根据很多假定得出的,有些没有说明来由。为了简单,这里在M步只给出【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法的推导方法。

E步很简单,按照一般EM公式得到:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      简单解释就是每个样例i的隐含类别【转】混合高斯模型(Mixtures of Gaussians)和EM算法为j的概率可以通过后验概率计算得到。

      在M步中,我们需要在固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法后最大化最大似然估计,也就是

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这是将【转】混合高斯模型(Mixtures of Gaussians)和EM算法的k种情况展开后的样子,未知参数【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法,对【转】混合高斯模型(Mixtures of Gaussians)和EM算法求导得

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      等于0时,得到

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这就是我们之前模型中的【转】混合高斯模型(Mixtures of Gaussians)和EM算法的更新公式。

      然后推导【转】混合高斯模型(Mixtures of Gaussians)和EM算法的更新公式。看之前得到的

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      在【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法确定后,分子上面的一串都是常数了,实际上需要优化的公式是:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      需要知道的是,【转】混合高斯模型(Mixtures of Gaussians)和EM算法还需要满足一定的约束条件就是【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这个优化问题我们很熟悉了,直接构造拉格朗日乘子。

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      还有一点就是【转】混合高斯模型(Mixtures of Gaussians)和EM算法,但这一点会在得到的公式里自动满足。

      求导得,

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      等于0,得到

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      也就是说【转】混合高斯模型(Mixtures of Gaussians)和EM算法再次使用【转】混合高斯模型(Mixtures of Gaussians)和EM算法,得到

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这样就神奇地得到了【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      那么就顺势得到M步中【转】混合高斯模型(Mixtures of Gaussians)和EM算法的更新公式:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法的推导也类似,不过稍微复杂一些,毕竟是矩阵。结果在之前的混合高斯模型中已经给出。

4. 总结

      如果将样本看作观察值,潜在类别看作是隐藏变量,那么聚类问题也就是参数估计问题,只不过聚类问题中参数分为隐含类别变量和其他参数,这犹如在x-y坐标系中找一个曲线的极值,然而曲线函数不能直接求导,因此什么梯度下降方法就不适用了。但固定一个变量后,另外一个可以通过求导得到,因此可以使用坐标上升法,一次固定一个变量,对另外的求极值,最后逐步逼近极值。对应到EM上,E步估计隐含变量,M步估计其他参数,交替将极值推向最大。EM中还有“硬”指定和“软”指定的概念,“软”指定看似更为合理,但计算量要大,“硬”指定在某些场合如K-means中更为实用(要是保持一个样本点到其他所有中心的概率,就会很麻烦)。

      另外,EM的收敛性证明方法确实很牛,能够利用log的凹函数性质,还能够想到利用创造下界,拉平函数下界,优化下界的方法来逐步逼近极大值。而且每一步迭代都能保证是单调的。最重要的是证明的数学公式非常精妙,硬是分子分母都乘以z的概率变成期望来套上Jensen不等式,前人都是怎么想到的。

      在Mitchell的Machine Learning书中也举了一个EM应用的例子,明白地说就是将班上学生的身高都放在一起,要求聚成两个类。这些身高可以看作是男生身高的高斯分布和女生身高的高斯分布组成。因此变成了如何估计每个样例是男生还是女生,然后在确定男女生情况下,如何估计均值和方差,里面也给出了公式,有兴趣可以参考。

      EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。

下面主要介绍EM的整个推导过程。

1. Jensen不等式

      回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,【转】混合高斯模型(Mixtures of Gaussians)和EM算法,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(【转】混合高斯模型(Mixtures of Gaussians)和EM算法),那么f是凸函数。如果【转】混合高斯模型(Mixtures of Gaussians)和EM算法或者【转】混合高斯模型(Mixtures of Gaussians)和EM算法,那么称f是严格凸函数。

      Jensen不等式表述如下:

      如果f是凸函数,X是随机变量,那么

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      特别地,如果f是严格凸函数,那么【转】混合高斯模型(Mixtures of Gaussians)和EM算法当且仅当【转】混合高斯模型(Mixtures of Gaussians)和EM算法,也就是说X是常量。

      这里我们将【转】混合高斯模型(Mixtures of Gaussians)和EM算法简写为【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      如果用图表示会很清晰:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      图中,实线f是凸函数,X是随机变量,有0.5的概率是a,有0.5的概率是b。(就像掷硬币一样)。X的期望值就是a和b的中值了,图中可以看到【转】混合高斯模型(Mixtures of Gaussians)和EM算法成立。

      当f是(严格)凹函数当且仅当-f是(严格)凸函数。

      Jensen不等式应用于凹函数时,不等号方向反向,也就是【转】混合高斯模型(Mixtures of Gaussians)和EM算法

2. EM算法

      给定的训练样本是【转】混合高斯模型(Mixtures of Gaussians)和EM算法,样例间独立,我们想找到每个样例隐含的类别z,能使得p(x,z)最大。p(x,z)的最大似然估计如下:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      第一步是对极大似然取对数,第二步是对每个样例的每个可能类别z求联合分布概率和。但是直接求【转】混合高斯模型(Mixtures of Gaussians)和EM算法一般比较困难,因为有隐藏变量z存在,但是一般确定了z后,求解就容易了。

      EM是一种解决存在隐含变量优化问题的有效方法。竟然不能直接最大化【转】混合高斯模型(Mixtures of Gaussians)和EM算法,我们可以不断地建立【转】混合高斯模型(Mixtures of Gaussians)和EM算法的下界(E步),然后优化下界(M步)。这句话比较抽象,看下面的。

      对于每一个样例i,让【转】混合高斯模型(Mixtures of Gaussians)和EM算法表示该样例隐含变量z的某种分布,【转】混合高斯模型(Mixtures of Gaussians)和EM算法满足的条件是【转】混合高斯模型(Mixtures of Gaussians)和EM算法。(如果z是连续性的,那么【转】混合高斯模型(Mixtures of Gaussians)和EM算法是概率密度函数,需要将求和符号换做积分符号)。比如要将班上学生聚类,假设隐藏变量z是身高,那么就是连续的高斯分布。如果按照隐藏变量是男女,那么就是伯努利分布了。

可以由前面阐述的内容得到下面的公式:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      (1)到(2)比较直接,就是分子分母同乘以一个相等的函数。(2)到(3)利用了Jensen不等式,考虑到【转】混合高斯模型(Mixtures of Gaussians)和EM算法是凹函数(二阶导数小于0),而且

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      就是【转】混合高斯模型(Mixtures of Gaussians)和EM算法的期望(回想期望公式中的Lazy Statistician规则)

      设Y是随机变量X的函数【转】混合高斯模型(Mixtures of Gaussians)和EM算法(g是连续函数),那么

      (1) X是离散型随机变量,它的分布律为【转】混合高斯模型(Mixtures of Gaussians)和EM算法,k=1,2,…。若【转】混合高斯模型(Mixtures of Gaussians)和EM算法绝对收敛,则有

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      (2) X是连续型随机变量,它的概率密度为【转】混合高斯模型(Mixtures of Gaussians)和EM算法,若【转】混合高斯模型(Mixtures of Gaussians)和EM算法绝对收敛,则有

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      对应于上述问题,Y是【转】混合高斯模型(Mixtures of Gaussians)和EM算法,X是【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法,g是【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法的映射。这样解释了式子(2)中的期望,再根据凹函数时的Jensen不等式:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

可以得到(3)。

      这个过程可以看作是对【转】混合高斯模型(Mixtures of Gaussians)和EM算法求了下界。对于【转】混合高斯模型(Mixtures of Gaussians)和EM算法的选择,有多种可能,那种更好的?假设【转】混合高斯模型(Mixtures of Gaussians)和EM算法已经给定,那么【转】混合高斯模型(Mixtures of Gaussians)和EM算法的值就决定于【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法了。我们可以通过调整这两个概率使下界不断上升,以逼近【转】混合高斯模型(Mixtures of Gaussians)和EM算法的真实值,那么什么时候算是调整好了呢?当不等式变成等式时,说明我们调整后的概率能够等价于【转】混合高斯模型(Mixtures of Gaussians)和EM算法了。按照这个思路,我们要找到等式成立的条件。根据Jensen不等式,要想让等式成立,需要让随机变量变成常数值,这里得到:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      c为常数,不依赖于【转】混合高斯模型(Mixtures of Gaussians)和EM算法。对此式子做进一步推导,我们知道【转】混合高斯模型(Mixtures of Gaussians)和EM算法,那么也就有【转】混合高斯模型(Mixtures of Gaussians)和EM算法,(多个等式分子分母相加不变,这个认为每个样例的两个概率比值都是c),那么有下式:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      至此,我们推出了在固定其他参数【转】混合高斯模型(Mixtures of Gaussians)和EM算法后,【转】混合高斯模型(Mixtures of Gaussians)和EM算法的计算公式就是后验概率,解决了【转】混合高斯模型(Mixtures of Gaussians)和EM算法如何选择的问题。这一步就是E步,建立【转】混合高斯模型(Mixtures of Gaussians)和EM算法的下界。接下来的M步,就是在给定【转】混合高斯模型(Mixtures of Gaussians)和EM算法后,调整【转】混合高斯模型(Mixtures of Gaussians)和EM算法,去极大化【转】混合高斯模型(Mixtures of Gaussians)和EM算法的下界(在固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法后,下界还可以调整的更大)。那么一般的EM算法的步骤如下:

循环重复直到收敛 {

      (E步)对于每一个i,计算

                  【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      (M步)计算

                  【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      那么究竟怎么确保EM收敛?假定【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法是EM第t次和t+1次迭代后的结果。如果我们证明了【转】混合高斯模型(Mixtures of Gaussians)和EM算法,也就是说极大似然估计单调增加,那么最终我们会到达最大似然估计的最大值。下面来证明,选定【转】混合高斯模型(Mixtures of Gaussians)和EM算法后,我们得到E步

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这一步保证了在给定【转】混合高斯模型(Mixtures of Gaussians)和EM算法时,Jensen不等式中的等式成立,也就是

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      然后进行M步,固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法,并将【转】混合高斯模型(Mixtures of Gaussians)和EM算法视作变量,对上面的【转】混合高斯模型(Mixtures of Gaussians)和EM算法求导后,得到【转】混合高斯模型(Mixtures of Gaussians)和EM算法,这样经过一些推导会有以下式子成立:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      解释第(4)步,得到【转】混合高斯模型(Mixtures of Gaussians)和EM算法时,只是最大化【转】混合高斯模型(Mixtures of Gaussians)和EM算法,也就是【转】混合高斯模型(Mixtures of Gaussians)和EM算法的下界,而没有使等式成立,等式成立只有是在固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法,并按E步得到【转】混合高斯模型(Mixtures of Gaussians)和EM算法时才能成立。

      况且根据我们前面得到的下式,对于所有的【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法都成立

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      第(5)步利用了M步的定义,M步就是将【转】混合高斯模型(Mixtures of Gaussians)和EM算法调整到【转】混合高斯模型(Mixtures of Gaussians)和EM算法,使得下界最大化。因此(5)成立,(6)是之前的等式结果。

      这样就证明了【转】混合高斯模型(Mixtures of Gaussians)和EM算法会单调增加。一种收敛方法是【转】混合高斯模型(Mixtures of Gaussians)和EM算法不再变化,还有一种就是变化幅度很小。

      再次解释一下(4)、(5)、(6)。首先(4)对所有的参数都满足,而其等式成立条件只是在固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法,并调整好Q时成立,而第(4)步只是固定Q,调整【转】混合高斯模型(Mixtures of Gaussians)和EM算法,不能保证等式一定成立。(4)到(5)就是M步的定义,(5)到(6)是前面E步所保证等式成立条件。也就是说E步会将下界拉到与【转】混合高斯模型(Mixtures of Gaussians)和EM算法一个特定值(这里【转】混合高斯模型(Mixtures of Gaussians)和EM算法)一样的高度,而此时发现下界仍然可以上升,因此经过M步后,下界又被拉升,但达不到与【转】混合高斯模型(Mixtures of Gaussians)和EM算法另外一个特定值一样的高度,之后E步又将下界拉到与这个特定值一样的高度,重复下去,直到最大值。

      如果我们定义

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      从前面的推导中我们知道【转】混合高斯模型(Mixtures of Gaussians)和EM算法,EM可以看作是J的坐标上升法,E步固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法,优化【转】混合高斯模型(Mixtures of Gaussians)和EM算法,M步固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法优化【转】混合高斯模型(Mixtures of Gaussians)和EM算法

3. 重新审视混合高斯模型

      我们已经知道了EM的精髓和推导过程,再次审视一下混合高斯模型。之前提到的混合高斯模型的参数【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法计算公式都是根据很多假定得出的,有些没有说明来由。为了简单,这里在M步只给出【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法的推导方法。

E步很简单,按照一般EM公式得到:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      简单解释就是每个样例i的隐含类别【转】混合高斯模型(Mixtures of Gaussians)和EM算法为j的概率可以通过后验概率计算得到。

      在M步中,我们需要在固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法后最大化最大似然估计,也就是

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这是将【转】混合高斯模型(Mixtures of Gaussians)和EM算法的k种情况展开后的样子,未知参数【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      固定【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法,对【转】混合高斯模型(Mixtures of Gaussians)和EM算法求导得

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      等于0时,得到

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这就是我们之前模型中的【转】混合高斯模型(Mixtures of Gaussians)和EM算法的更新公式。

      然后推导【转】混合高斯模型(Mixtures of Gaussians)和EM算法的更新公式。看之前得到的

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      在【转】混合高斯模型(Mixtures of Gaussians)和EM算法【转】混合高斯模型(Mixtures of Gaussians)和EM算法确定后,分子上面的一串都是常数了,实际上需要优化的公式是:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      需要知道的是,【转】混合高斯模型(Mixtures of Gaussians)和EM算法还需要满足一定的约束条件就是【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这个优化问题我们很熟悉了,直接构造拉格朗日乘子。

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      还有一点就是【转】混合高斯模型(Mixtures of Gaussians)和EM算法,但这一点会在得到的公式里自动满足。

      求导得,

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      等于0,得到

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      也就是说【转】混合高斯模型(Mixtures of Gaussians)和EM算法再次使用【转】混合高斯模型(Mixtures of Gaussians)和EM算法,得到

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      这样就神奇地得到了【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      那么就顺势得到M步中【转】混合高斯模型(Mixtures of Gaussians)和EM算法的更新公式:

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法

      【转】混合高斯模型(Mixtures of Gaussians)和EM算法的推导也类似,不过稍微复杂一些,毕竟是矩阵。结果在之前的混合高斯模型中已经给出。

4. 总结

      如果将样本看作观察值,潜在类别看作是隐藏变量,那么聚类问题也就是参数估计问题,只不过聚类问题中参数分为隐含类别变量和其他参数,这犹如在x-y坐标系中找一个曲线的极值,然而曲线函数不能直接求导,因此什么梯度下降方法就不适用了。但固定一个变量后,另外一个可以通过求导得到,因此可以使用坐标上升法,一次固定一个变量,对另外的求极值,最后逐步逼近极值。对应到EM上,E步估计隐含变量,M步估计其他参数,交替将极值推向最大。EM中还有“硬”指定和“软”指定的概念,“软”指定看似更为合理,但计算量要大,“硬”指定在某些场合如K-means中更为实用(要是保持一个样本点到其他所有中心的概率,就会很麻烦)。

      另外,EM的收敛性证明方法确实很牛,能够利用log的凹函数性质,还能够想到利用创造下界,拉平函数下界,优化下界的方法来逐步逼近极大值。而且每一步迭代都能保证是单调的。最重要的是证明的数学公式非常精妙,硬是分子分母都乘以z的概率变成期望来套上Jensen不等式,前人都是怎么想到的。

      在Mitchell的Machine Learning书中也举了一个EM应用的例子,明白地说就是将班上学生的身高都放在一起,要求聚成两个类。这些身高可以看作是男生身高的高斯分布和女生身高的高斯分布组成。因此变成了如何估计每个样例是男生还是女生,然后在确定男女生情况下,如何估计均值和方差,里面也给出了公式,有兴趣可以参考。

相关文章: