定义:给定 X=(x1,x2,...,xn) ,Y=(y1,y2,...,yn) 均为线性链表示的随机变量序列,若在给随机变量序列 X 的条件下,随机变量序列 Y 的条件概率分布 P(Y∣X) 构成条件随机场,即满足马尔可夫性:
P(yi∣x1,x2,...,xi−1,y1,y2,...,yi−1,yi+1)=P(yi∣x,yi−1,yi+1)
则称为 P(Y|X) 为线性链条件随机场。
通过去除了隐马尔科夫算法中的观测状态相互独立假设,使算法在计算当前隐状态xi时,会考虑整个观测序列,从而获得更高的表达能力,并进行全局归一化解决标注偏置问题。
![[机器学习][基础算法]条件随机场 [机器学习][基础算法]条件随机场](/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpNd01TODFNems0T0dJMU16bGtZakEwTTJKbU1XTXhOak5pTnpNd01UWTNObU5qTlM1d2JtYz0=)
至于公式化表示的话是指:
p(y∣x)=Z(x)1i=1∏nexp⎝⎛i,k∑λktk(yi−1,yi,x,i)+i,l∑μlsl(yi,x,i)⎠⎞
在最上面的概率图模型中,有如下解释:
贝叶斯网络(信念网络)都是有向的,马尔科夫网络无向。所以,贝叶斯网络适合为有单向依赖的数据建模,马尔科夫网络适合实体之间互相依赖的建模。具体地,他们的核心差异表现在如何求 P=(Y) ,即怎么表示 Y=(y1,...,yn) 这个的联合概率。
- 有向图
对于有向图模型,这么求联合概率: P(x1,...,xn)=∏i=0P(xi∣π(xi))
举个例子,对于下面的这个有向图的随机变量
![[机器学习][基础算法]条件随机场 [机器学习][基础算法]条件随机场](/default/index/img?u=L2RlZmF1bHQvaW5kZXgvaW1nP3U9YUhSMGNITTZMeTl3YVdGdWMyaGxiaTVqYjIwdmFXMWhaMlZ6THpnNU1TOWxPRGN3Tm1FMk9HRTVOREl6TnpJeVpEa3lNRGc0TXpNelpqaGpZekF4WWk1d2JtYz0=)
应该这样表示他们的联合概率:
P(x1,...,xn)=P(x1)⋅P(x2∣x1)⋅P(x3∣x3)⋅P(x4∣x2)⋅P(x5∣x3,x4)
2. 无向图
如果一个graph太大,可以用因子分解将 P=(Y) 写为若干个联合概率的乘积。咋分解呢,将一个图分为若干个“小团”,注意每个团必须是“最大团”(就是里面任何两个点连在了一块,具体……算了不解释,有点“最大连通子图”的感觉),则有:P(Y)=Z(x)1∏cψc(Yc)
, 其中Z(x)=∑Y∏cψc(Yc),归一化是为了让结果算作概率。
所以像上面的无向图:
P(Y)=Z(x)1∏cψ1(X1,X3,X4)⋅ψ1(X1,X3,X4)
其中ψc(Yc), 是一个最大团 C 上随机变量们的联合概率,一般取指数函数的:
ψc(Yc)=e−E(Yc)=e∑kλkfk(c,y∣c,x)
好了,管这个东西叫做势函数。注意e∑kλkfk(c,y∣c,x) 是否有看到CRF的影子。
那么概率无向图的联合概率分布可以在因子分解下表示为:
P(Y)=Z(x)1∏cψc(Yc)=Z(x)1∏ce∑kλkfk(c,y∣c,x)=Z(x)1e∑c∑kλkfk(y,yi−1,c,i)
注意查看知乎
https://www.zhihu.com/question/35866596/answer/236886066