文章目录
前言
条件随机场属于概率图模型的一种,为了详细了解条件随机场的前世今生,需要将HMM、MEMM和CRF放在一起学习,才够系统。ok,话不多说,让我们开始吧。
关于概率图模型的分类,可以参考下图。
1.相关概念
1.1有向图 VS 无向图
对于二者的区别,主要体现在如何求概率。
1.1.1有向图
对于有向图,其联合概率的求法如下:
广义有向图的形式,如下图:
他们的联合概率可以表示为:
1.1.2无向图
无向图的表示,如下图:
如果一个无向图太大,可以用因子分解将 写为若干个联合概率的乘积。分解过程:将一个图分为若干个“小团”,注意每个团必须是“最大团”(我的理解:在最大团内,需要同时满足以下两个条件:(1)随机变量数要最多;(2)一个团内的所有随机变量之间要有联系,表示在图中的话,就是一个团内的任意两个随机变量之间要有连线),则有:
向上面的无向图,其概率为:
1.2 生成模型 VS判别模型
二者的区别主要在建模对象上
1.2.1 生成模型(generative model)
训练阶段是对建模,即求的是联合概率。
其有如下特点:
- 对建模
- 这里我们主要讲分类问题,所以是要对每个label()都需要建模,最终选择最优概率的label为结果,所以没有什么判别边界。(对于序列标注问题,那只需要构件一个model)
- 中间生成联合分布,并可生成采样数据。
- 生成式模型的优点在于,所包含的信息非常齐全,我称之为“上帝信息”,所以不仅可以用来输入label,还可以干其他的事情。生成式模型关注结果是如何产生的。但是生成式模型需要非常充足的数据量以保证采样到了数据本来的面目,所以速度相比之下,慢。
1.2.2判别模型(discriminative model)
判别模型就是对建模,换句话说,直接根据X特征来对Y建模训练。所以判别式模型的特征总结如下:
- 对 建模
- 对所有的样本只构建一个模型,确认总体判别边界
- 观测到输入什么特征,就预测最可能的label
- 另外,判别式的优点是:对数据量要求没生成式的严格,速度也会快,小数据量下准确率也会好些。
2.隐Markov模型(HMM)
2.1Markov过程
假设一个随机过程中, 时刻的状态的条件分布,只与其前一状态 相关,即:
则将其称为 Markov过程。
2.2 隐Markov模型
隐马尔科夫算法是对含有未知参数(隐状态)的马尔可夫链进行建模的生成模型,如下图所示。在HMM中存在隐状态(图中橙色部分)和观测状态(图中蓝色部分)。以词性标注为例,句子:小明爱中国。词性为名词+动词+名词。其中句子就是可以观测到的,是观测状态,而词性是需要标注,对我们而言是未知的,因此是隐状态。
2.2.1 两大假设
HMM中,有两大前提假设:
- 观测独立假设。即观测序列的各个状态仅取决于他所对应的隐状态。即
-
齐次马尔科夫假设。隐状态的状态满足马尔科夫过程,时刻的状态 的条件分布,仅与其前一个状态 相关,即:
这两大假设的目的,都是为了方便计算。
2.2.2五个要素
- 隐状态集;
- 观测状态集;
- 状态转移概率矩阵A;
- 观测概率矩阵B;
- 隐状态概率分布。
2.3问题
1.在序列标注问题中,隐状态(标注)不仅和单个观测状态相关,还和观察序列的长度、上下文等信息相关。例如词性标注问题中,一个词被标注为动词还是名词,不仅与它本身以及它前一个词的标注有关,还依赖于上下文中的其他词。
2.属于生成式模型,计算复杂
3.MEMM(最大熵Markov模型)
针对HMM中出现的问题,在MEEMM中,取消了HMM中的观测独立假设。
其概率图模型如下图所示,下面两幅图均可以表示。最上面一幅图中的:
或者
3.1特点
- 判别模型
- 因为局部归一化,存在标注偏差问题
4.条件随机场CRF(Conditional Random Field)
将MEMM的有向图模型,变为无向图模型,由此打破了HMM的齐次Markov假设,如下图所示。解决了MEMM中存在的标注偏差问题。
或者
未完待续!!!!!
参考资料
1.B站机器学习-白板推导系列(十七)-条件随机场CRF(Conditional Random Field)
2.知乎
Scofield[如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?]
3.简书【如何轻松愉快地理解条件随机场(CRF)?】