EM算法推导（收敛性证明和在GMM中的应用）

一、EM算法的提出

当你有一组数据像如下这样：

显然用单个高斯分布模型去拟合它们效果不好，这是一个典型的高斯混合模型的例子：

p (X) = \sum_{l = 1}^{k} α_{l} N (X | μ_{l}, Σ_{l}) \sum_{l = 1}^{k} α_{l} = 1

（ 其 中 α_{l} 可 以 理 解 为 每 一 个 高 斯 分 布 的 权 重 ）

令

Θ = {α_{1}, \dots, α_{k}, μ_{1}, \dots, μ_{k}, Σ_{1}, \dots, Σ_{k}}

，则有：

\begin{aligned} (58) & Θ_{M L E} & = \underset{Θ}{\arg max} L (Θ | X) \\ (59) & = \underset{Θ}{\arg max} (\sum_{i = 1}^{n} l o g \sum_{l = 1}^{k} α_{l} N (X | μ_{l}, Σ_{l})) \end{aligned}

该式子包含和（或积分）的对数，不能像单个高斯模型那样直接求导，再令导数为0来求解。这时我们需要利用 EM 算法通过迭代逐步近似极大化

L (Θ | X)

来求解。

Note: picture source

二、EM算法的导出

先提出 Jensen 不等式：
对于凸函数(convex)，有：

f (t \cdot x_{1} + (1 - t) \cdot x_{2}) \leq t \cdot f (x_{1}) + (1 - t) \cdot f (x_{2})

扩展到高维，令

\sum_{i = 1}^{k} p_{i} = 1 p_{i} \geq 0

：

f (p_{1} \cdot x_{1} + \dots + p_{k} \cdot x_{k}) \leq p_{1} \cdot f (x_{1}) + \dots + p_{k} \cdot f (x_{k})

f (\sum_{i = 1}^{k} p_{i} \cdot x_{i}) \leq \sum_{i = 1}^{k} p_{i} \cdot f (x_{i})

用

ϕ

代替

f

，

f (x)

代替

x

，我们有

ϕ (\sum_{i = 1}^{k} p_{i} \cdot f (x_{i})) \leq \sum_{i = 1}^{k} p_{i} \cdot ϕ (f (x_{i}))

故对于凸函数(convex)，有下面这条结论：
$ϕ (E [f (x)]) \leq E [ϕ (f (x))]$ 同理，对于凹函数(concave)，有相反的结论：
$ϕ (E [f (x)]) \geq E [ϕ (f (x))]$

我们通过引入隐变量 Z 来极大化观测数据 X 关于参数 $θ$ 的对数似然函数：

\begin{aligned} (3) & L (θ) & = l n P (X | θ) = l n (\frac{P (X, Z | θ)}{P (Z | X, θ)}) \\ (4) & = l n (\frac{P (X, Z | θ)}{Q (Z)} \cdot \frac{Q (Z)}{P (Z | X, θ)}) \\ (5) & = l n (\frac{P (X, Z | θ)}{Q (Z)}) + l n (\frac{Q (Z)}{P (Z | X, θ)}) \end{aligned}

故：

\begin{aligned} (6) & l n P (X | θ) \\ (7) \\ (8) & = \int_{Z} l n (\frac{P (X, Z | θ)}{Q (Z)}) Q (Z) + \int_{Z} l n (\frac{Q (Z)}{P (Z | X, θ)}) Q (Z) \\ (9) \\ (10) & = r (X | θ) + K L (Q (Z) | | P (Z | X, θ)) \end{aligned}

其中， $K L (\cdot) \geq 0$ ，则 $l n P (X | θ) \geq r (X | θ)$ ，也可利用上面的 Jensen 不等式证明:

\begin{aligned} (11) & l n P (X | θ) & = l n \int_{Z} P (X, Z | θ) \\ (12) & = l n \int_{Z} \frac{P (X, Z | θ)}{Q (Z)} \cdot Q (Z) = l n E_{Q (Z)} [f (Z)] \\ (13) & \geq E_{Q (Z)} l n [f (Z)] = \int_{Z} l n (\frac{P (X, Z | θ)}{Q (Z)}) \cdot Q (Z) \end{aligned}

又当

Q (Z) = P (Z | X, Θ^{(g)})

时，有

K L (\cdot) = 0

，此时有：

l n P (X | Θ^{(g)}) = r (X | Θ^{(g)})

由上

r (X | Θ)

是

L (Θ)

的一个下界函数，我们通过不断求解下界函数的极大化来逼近求解对数似然函数的极大化:

\begin{aligned} (60) & Θ^{(g + 1)} & = \underset{Θ}{\arg max} \int_{Z} l n (\frac{P (X, Z | Θ)}{P (Z | X, Θ^{(g)})}) P (Z | X, Θ^{(g)}) \\ (61) & = \underset{Θ}{\arg max} \int_{Z} l n (P (X, Z | Θ)) P (Z | X, Θ^{(g)}) d z \end{aligned}

EM算法每次迭代包含两步：E步，求期望；M步，求极大化。令：

Q (Θ, Θ^{(g)}) = \int_{Z} l n (P (X, Z | Θ)) P (Z | X, Θ^{(g)}) d z

EM算法如下：

EM算法:
输入：观测变量数据X，隐变量数据Z，联合分布 $P (X, Z | Θ)$ ，条件分布 $P (Z | X, Θ)$
输出：模型参数 $Θ$
(1) 选择初始参数 $Θ^{(0)}$ ；
(2) E步，记 $Θ^{(i)}$ 为第 i 次迭代参数 $Θ$ 的估计值，在第 i+1 次迭代的E步，计算 $Q (Θ, Θ^{(g)})$ ;
(3) M步，确定第 i+1 次迭代的参数的估计值 $Θ^{(i + 1)}$ ，即：
$Θ^{(i + 1)} = \underset{Θ}{\arg max} Q (Θ, Θ^{(g)})$
(4) 重复(2)步和(3)步，直到收敛。

下图给出 EM 算法的直观解释：

由图，两个函数在 $θ = θ^{(g)}$ 处相等，由EM算法 (3) 步，我们得到下一个点 $θ^{(g + 1)}$ 使下界函数极大化。下界函数的增加保证对数似然函数在每次迭代中也是增加的。EM算法在点 $θ^{(g + 1)}$ 处重新计算 $Q (Θ, Θ^{(g + 1)})$ ，进行下一次迭代。迭代过程中，对数似然函数不断增大，但从图可以看出EM算法不能保证找到全局最优值。

三、EM算法的收敛性

由

P (X | θ) = \frac{P (X, Z | θ)}{P (Z | X, θ)}

取对数有：

l o g P (X | θ) = l o g P (X, Z | θ) - l o g P (Z | X, θ)

记，

Q (θ, θ^{(g)}) = \int_{Z} l o g (P (X, Z | θ)) P (Z | X, θ^{(g)}) d z

H (θ, θ^{(g)}) = \int_{Z} l o g (P (Z | X, θ)) P (Z | X, θ^{(g)}) d z

于是对数似然函数可以写成：

l o g P (X | θ) = Q (θ, θ^{(g)}) - H (θ, θ^{(g)})

故有如下等式：

l o g P (X | θ^{(g + 1)}) - l o g P (X | θ^{(g)}) = [Q (θ^{(g + 1)}, θ^{(g)}) - Q (θ^{(g)}, θ^{(g)})] - [H (θ^{(g + 1)}, θ^{(g)}) - H (θ^{(g)}, θ^{(g)})]

显然，右端第一项，由于

θ^{(g + 1)}

使

Q (θ, θ^{(g)})

达到极大，所以有：

Q (θ^{(g + 1)}, θ^{(g)}) - Q (θ^{(g)}, θ^{(g)}) \geq 0

其第二项，有：

\begin{aligned} (78) & H (θ^{(g + 1)}, θ^{(g)}) - H (θ^{(g)}, θ^{(g)}) \\ (79) & = \int_{Z} l n (\frac{P (Z | X, θ^{(g + 1)})}{P (Z | X, θ^{(g)})}) P (Z | X, θ^{(g)}) \\ (80) & \leq l n \int_{Z} (\frac{P (Z | X, θ^{(g + 1)})}{P (Z | X, θ^{(g)})} P (Z | X, θ^{(g)})) \\ (81) & = l n (\int_{Z} P (Z | X, θ^{(g + 1)})) = 0 \end{aligned}

综上，有:

l o g P (X | θ^{(g + 1)}) \geq l o g P (X | θ^{(g)})

四、EM算法在GMM中的应用

在本文的第一部分已经提出高斯混合模型：

p (X) = \sum_{l = 1}^{k} α_{l} N (X | μ_{l}, Σ_{l}) \sum_{l = 1}^{k} α_{l} = 1

令

Θ = {α_{1}, \dots, α_{k}, μ_{1}, \dots, μ_{k}, Σ_{1}, \dots, Σ_{k}}

在本文的第三部分我们已经推导出EM算法：

Θ^{(g + 1)} = \underset{Θ}{\arg max} \int_{Z} l n (P (X, Z | Θ)) P (Z | X, Θ^{(g)}) d z

E step:

我们需要定义这两项 $l n P (X, Z | Θ)$ 和 $P (Z | X, Θ)$ ;

P (X | Θ) = \sum_{l = 1}^{k} α_{l} N (X | μ_{l}, Σ_{l}) = \prod_{i = 1}^{n} \sum_{l = 1}^{k} α_{l} N (x_{i} | μ_{l}, Σ_{l})

由上式，我们可以定义：

\begin{aligned} (20) & P (X, Z | Θ) & = \prod_{i = 1}^{n} p (x_{i}, z_{i} | Θ) \\ (21) & = \prod_{i = 1}^{n} p (x_{i} | z_{i}, Θ) p (z_{i} | Θ) = \prod_{i = 1}^{n} α_{z_{i}} N (μ_{z_{i}}, Σ_{z_{i}}) \end{aligned}

由贝叶斯公式，我们有：

P (Z | X, Θ) = \prod_{i = 1}^{n} p (z_{i} | x_{i}, Θ) = \prod_{i = 1}^{n} \frac{α_{z_{i}} N (μ_{z_{i}}, Σ_{z_{i}})}{\sum_{l = 1}^{k} α_{l} N (μ_{l}, Σ_{l})}

结合两式，得到：

\begin{aligned} (22) & Q (Θ, Θ^{(g)}) & = \int_{Z} l n (P (X, Z | Θ)) P (Z | X, Θ^{(g)}) d z \\ (23) & = \int_{z_{1}} \dots \int_{z_{k}} (\sum_{i = 1}^{n} [l n α_{z_{i}} + l n N (μ_{z_{i}}, Σ_{z_{i}})]) \cdot \prod_{i = 1}^{n} p (z_{i} | x_{i}, Θ^{(g)}) d z_{1} \dots d z_{k} \end{aligned}

令：

f (z_{i}) = l n α_{z_{i}} + l n N (μ_{z_{i}}, Σ_{z_{i}})

p (z_{1}, \dots, z_{k}) = \prod_{i = 1}^{n} p (z_{i} | x_{i}, Θ^{(g)})

又可以写成如下形式：

Q (Θ, Θ^{(g)}) = \int_{z_{1}} \dots \int_{z_{k}} (\sum_{i = 1}^{n} f (z_{i})) \cdot p (z_{1}, \dots, z_{k}) d z_{1} \dots d z_{k}

看上式的第一项，可以作如下化简：

\begin{aligned} (24) & \int_{z_{1}} \dots \int_{z_{k}} (f (z_{1})) \cdot p (z_{1}, \dots, z_{k}) d z_{1} \dots d z_{k} \\ (25) & = \int_{z_{1}} f (z_{1}) \int_{z_{2}} \dots \int_{z_{k}} \cdot p (z_{1}, \dots, z_{k}) d z_{1} \dots d z_{k} \\ (26) & = \int_{z_{1}} f (z_{1}) \cdot p (z_{1}) d z_{1} \end{aligned}

每一项都作类似的化简，我们得到：

\begin{aligned} (27) & Q (Θ, Θ^{(g)}) & = \sum_{i = 1}^{n} \int_{z_{i}} f (z_{i}) \cdot p (z_{i}) d z_{i} \\ (28) & = \sum_{i = 1}^{n} \int_{z_{i}} (l n α_{z_{i}} + l n N (x_{i} | μ_{z_{i}}, Σ_{z_{i}})) \cdot p (z_{i} | x_{i}, Θ^{(g)}) d z_{i} \\ (29) & = \sum_{z_{i} = 1}^{k} \sum_{i = 1}^{n} (l n α_{z_{i}} + l n N (x_{i} | μ_{z_{i}}, Σ_{z_{i}}) \cdot p (z_{i} | x_{i}, Θ^{(g)}) \\ (30) & = \sum_{l = 1}^{k} \sum_{i = 1}^{n} (l n α_{l} + l n N (x_{i} | μ_{l}, Σ_{l}) \cdot p (l | x_{i}, Θ^{(g)}) \end{aligned}

M step:

由下图我们可以直观理解：
α1 就是把所有样本点的 aa+b 加起来再除以样本总数N，即求所有样本点的 aa+b 的均值；
α2 就是把所有样本点的 ba+b 加起来再除以样本总数N，即求所有样本点的 ba+b 的均值；

（2）最大化 μ,Σ
∂∑kl=1∑ni=1ln[N(xi|μl,Σl)]⋅p(l|xi,Θ(g))∂μ1,…,∂μk,∂Σ1,…,∂Σk=[0,…,0]
经过化简可以得到：
μl=∑ni=1xip(l|xi,Θ)∑ni=1p(l|xi,Θ)
\Sigma_l=\frac{\sum_{i=1}^{n} (x_i-\mu_l)(x_i-\mu_l)^Tp(l|x_i,\Theta)}{\sum_{i=1}^{n} p(l|x_i,\Theta)}

五、PYTHON Demos

Demo1:
EM算法推导（收敛性证明和在GMM中的应用）
Demo2:

——————————代码链接——————————

六、参考资料

[1] 李航《统计学习方法》
[2] 徐亦达教授的自视频
[3] machine-learning-notes(em.pdf).Professor Richard Xu .