机器学习——HMM

HMM定义

1、马尔可夫链
马尔可夫链是满足马尔可夫性质的随机过程。马尔可夫性质是无记忆性，也就是说，这一时刻的状态，受且只受前一时刻的影响，而不受更往前时刻的状态的影响。我们下面说的隐藏状态序列就马尔可夫链。
2、隐马尔可夫模型
隐马尔科夫模型(HMM, Hidden Markov Model)可用标注问题，在语音识别、NLP、生物信息、模式识别等领域被实践证明是有效的算法。
HMM是关于时序的概率模型，描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列，再由各个状态生成观测随机序列的过程。
隐马尔科夫模型随机生成的状态随机序列，称为状态序列。每个状态生成一个观测，由此产生的观测随机序列，称为观测序列。
机器学习——HMM
隐马尔科夫模型有初始概率分布、状态转移概率分布以及观测概率分布确定，其形式化定义如下:
设 $Q$ 是所有可能状态集合， $V$ 是所有可能的观测的集合

其中 $N$ 是可能的状态数， $M$ 是可能的观测数。
$I$ 是长度为 $T$ 的状态序列， $O$ 是对应的观测序列
机器学习——HMM
A是状态转移矩阵

其中

表示的是 $t$ 时刻处于 $q_i$ 的条件下在 $t+1$ 时刻状态转移到 $q_j$ 的概率。
B是观测概率矩阵

其中

是在时刻t处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率。
$π$ 是初始状态概率向量
机器学习——HMM
其中

所以隐马尔科夫模型 $\lambda$ 可以用三元符号表示，即

隐马尔科夫模型的两个性质

1、齐次马尔科夫性假设
即设隐藏的马尔科夫链在任意时刻 $t$ 的状态只依赖于前一时刻的状态，与其他时刻的状态以及观测无关。
机器学习——HMM
2、观测独立性假设
即假设任意时刻的观测只依赖该时刻的马尔科夫链的状态，与其他观测和状态无关。

HMM的三个基本问题

1、概率计算问题
给定模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ 计算在模型 $\lambda$ 下观测序列为 $O$ 的概率 $P(O|\lambda)$ 。
2、学习问题
已知观测序列 $O=(o_1,o_2,...,o_T)$ ，估计模型 $\lambda=(A,B,\pi)$ 的参数，使得在该模型下观测序列概率 $P(O|\lambda)$ 最大。
3、预测问题
也成为解码问题。已知模型 $\lambda=(A,B,\pi)$ 和观测序列 $O=(o_1,o_2,...,o_T)$ ，求对给定的观测序列概率P $P(I|O)$ 的最大值。即给定观测序列，求最有可能的对应状态序列。

概率计算问题

直接计算法

按照概率公式，列举所有可能的长度为 $T$ 的状态序列 $I=\{i_1,i_2,···,i_t\}$ 求各个状态序列 $I$ 与观测序列 $O=\{o_1,o_2,···,o_t\}$ 的联合概率 $P(O,I|\lambda)$ ，然后对所有可能的状态序列求和，从而得到 $P(O|\lambda)$ 。
状态序列 $I=\{i_1,i_2,···,i_t\}$ 的概率是：
机器学习——HMM
对固定的状态序列 $I$ ，观测序列 $O$ 的概率是：

$O$ 和 $I$ 同时出现的联合概率是：

对所有可能的状态序列 $I$ 求和,得到观测序列 $O$ 的概率 $P(O|\lambda)$ ：

最终式：

前向算法

给定 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 $o1,o2,...,ot$ 且状态为 $qi$ 的概率称为前向概率，记做：
机器学习——HMM
可以递推计算前向概率 $a_t(i)$ 及观测序列概率 $P(O|\lambda)$ 。
初值：

递推：

最终：

后向算法

给定 $\lambda$ ，定义到时刻 $t$ 状态为 $qi$ 的前提下，从 $t+1$ 到 $T$ 的部分观测序列为 $ot+1,ot+2..oT$ 的概率为后向概率，记做：
机器学习——HMM
可以递推计算后向概率 $\beta_t(i)$ 及观测序列概率 $P(O|\lambda)$ 。
初值：

递推：

最终：

说明：
为了计算在时刻 $t$ 状态为 $qi$ 条件下时刻 $t+1$ 之后的观测序列为 $ot+1,ot+2,...,oT$ 的后向概率 $\beta_t(i)$ ，只需要考虑在时刻 $t+1$ 所有可能的 $N$ 个状态 $qj$ 的转移概率 $(aij项)$ ，以及在此状态下的观测 $ot+1$ 的观测概率 $(bjot+1项)$ ，然后考虑状态 $qj$ 之后的观测序列的后向概率 $\beta_t(j)$ 。

Baum-Welch算法

若训练数据只有观测序列，则HMM的学习需要使用EM算法，是非监督学习。
EM算法整体框架：
机器学习——HMM
所有观测数据写成 $O=(o_1,o_2,...,o_T)$ ，所有隐数据写成 $I=(i_1,i_2,...,i_T)$ ，完全数据是 $(O,I)=(o_1,o_2,...,o_T,i_1,i_2,...,i_T)$ 完全数据的对数似然函数是 $InP(O,I|\lambda)$ 。
假设 $\overline{\lambda}$ 是HMM参数的当前估计值，入为待求的参数。
机器学习——HMM
EM过程
根据：

函数可写成：

极大化
极大化 $Q$ ，求得参数 $A,B,\pi$ ，由于该三个参数分别位于三个项中，可分别极大化：

注意 $\pi_i$ 满足加和为1，利用拉格朗日乘子法得到:

初始状态概率
对上式相对于 $T_i$ 求偏导得到:
机器学习——HMM
对 $i$ 求和得到：

从而得到初始状态概率:

转移概率和观测概率
第二项可写成:

仍然使用拉格朗日乘子法，得到：

同理，得到：