机器学习笔记-Task04-条件随机场CRF（Conditional Random Field）

文章目录

前言
1.相关概念

1.1有向图 VS 无向图

1.1.1有向图
1.1.2无向图

1.2 生成模型 VS判别模型

1.2.1 生成模型(generative model)
1.2.2判别模型（discriminative model）

2.隐Markov模型（HMM）

2.1Markov过程
2.2 隐Markov模型

2.2.1 两大假设
2.2.2五个要素

2.3问题

3.MEMM（最大熵Markov模型）

3.1特点

4.条件随机场CRF（Conditional Random Field）
未完待续！！！！！
参考资料

前言

条件随机场属于概率图模型的一种，为了详细了解条件随机场的前世今生，需要将HMM、MEMM和CRF放在一起学习，才够系统。ok，话不多说，让我们开始吧。
关于概率图模型的分类，可以参考下图。
机器学习笔记-Task04-条件随机场CRF（Conditional Random Field）

1.相关概念

1.1有向图 VS 无向图

对于二者的区别，主要体现在如何求概率。

1.1.1有向图

对于有向图，其联合概率的求法如下：
机器学习笔记-Task04-条件随机场CRF（Conditional Random Field）
广义有向图的形式，如下图：

他们的联合概率可以表示为：

1.1.2无向图

无向图的表示，如下图：
机器学习笔记-Task04-条件随机场CRF（Conditional Random Field）
如果一个无向图太大，可以用因子分解将 $P(Y)$ 写为若干个联合概率的乘积。分解过程：将一个图分为若干个“小团”，注意每个团必须是“最大团”（我的理解：在最大团内，需要同时满足以下两个条件：（1）随机变量数要最多；（2）一个团内的所有随机变量之间要有联系，表示在图中的话，就是一个团内的任意两个随机变量之间要有连线），则有：
机器学习笔记-Task04-条件随机场CRF（Conditional Random Field）
向上面的无向图，其概率为：

1.2 生成模型 VS判别模型

二者的区别主要在建模对象上

1.2.1 生成模型(generative model)

训练阶段是对 $P(X,Y)$ 建模，即求的是联合概率。
其有如下特点：

对 $P(X,Y)$ 建模
这里我们主要讲分类问题，所以是要对每个label（ $y_{i}$ ）都需要建模，最终选择最优概率的label为结果，所以没有什么判别边界。（对于序列标注问题，那只需要构件一个model）
中间生成联合分布，并可生成采样数据。
生成式模型的优点在于，所包含的信息非常齐全，我称之为“上帝信息”，所以不仅可以用来输入label，还可以干其他的事情。生成式模型关注结果是如何产生的。但是生成式模型需要非常充足的数据量以保证采样到了数据本来的面目，所以速度相比之下，慢。

1.2.2判别模型（discriminative model）

判别模型就是对 $P(Y|X)$ 建模，换句话说，直接根据X特征来对Y建模训练。所以判别式模型的特征总结如下：

对 $P(Y|X)$ 建模
对所有的样本只构建一个模型，确认总体判别边界
观测到输入什么特征，就预测最可能的label
另外，判别式的优点是：对数据量要求没生成式的严格，速度也会快，小数据量下准确率也会好些。

2.隐Markov模型（HMM）

2.1Markov过程

假设一个随机过程中， $t$ 时刻的状态 $y_{t}$ 的条件分布，只与其前一状态 $y_{t-1}$ 相关，即：

$P(y_{t}|y_{1},y_{2},...,y_{t-1})=P(y_{t}|y_{t-1})$

则将其称为 Markov过程。
机器学习笔记-Task04-条件随机场CRF（Conditional Random Field）

2.2 隐Markov模型

隐马尔科夫算法是对含有未知参数（隐状态）的马尔可夫链进行建模的生成模型，如下图所示。在HMM中存在隐状态 $y_{t}$ （图中橙色部分）和观测状态 $x_{t}$ （图中蓝色部分）。以词性标注为例，句子：小明爱中国。词性为名词+动词+名词。其中句子就是可以观测到的，是观测状态，而词性是需要标注，对我们而言是未知的，因此是隐状态。
机器学习笔记-Task04-条件随机场CRF（Conditional Random Field）

2.2.1 两大假设

HMM中，有两大前提假设：

观测独立假设。即观测序列的各个状态仅取决于他所对应的隐状态。即 $P(x_{i}|y_{1},y_{2},...,y_{i+1},x_{1},x_{2},...,x_{i+1},...)=P(x_{i}|y_{i})$
齐次马尔科夫假设。隐状态 $y_{i}$ 的状态满足马尔科夫过程， $i$ 时刻的状态 $y_{i}$ 的条件分布，仅与其前一个状态 $y_{i-1}$ 相关，即： $P(y_{i}|y_{1},y_{2},...y_{i-1})=P(y_{i}|y_{i-1})$
这两大假设的目的，都是为了方便计算。