分词算法模型学习笔记(三)——CRF

所谓的标注偏置就是更偏向于选择分支较少的路径，而不是全局概率更大但分支更多的真正正确路径。

分词算法模型学习笔记(三)——CRF

如上图所示，虽然对于观测序列x1,x2,x3来说，隐藏状态序列s0,s1,s2,s3和s0,s1,s4,s3的出现频率会更高，但最后MEMM仍会选择分支较少的s0,s5,s6,s3

问题的根源在于MEMM中的概率值只在局部做归一化，所以容易陷入局部最优。

同样是判别式模型，同样适用于多种非互斥隐藏变量同时存在的情况

由于所有的概率值均由全局归一化得出，因此可以得到真正的全局最优解

分词算法模型学习笔记(三)——CRF

分词算法模型学习笔记(三)——CRF

计算目标：

y^=argmaxyP(y|x)=argmaxy[∑t,iλifi(Yt−1,Yt,X,t)+∑t,jμjgj(Yt,X,t)]

定义两个局部概率

ht(Yt−1,Yt,X)=∑iλifi(Yt−1,Yt,X,t)+∑jμjgj(Yt,X,t)

δk(x,sl)=maxy1⋅⋅⋅yk−1[∑t=1k−1ht(yt−1,yt,x)+hk(yk−1,sl,x)]

同时因为要求的是这个概率值最大的隐藏状态序列本身，而不是它的概率值，因此还需要一个回退指针变量ψ用于记录状态的转移情况。

δ 1 (x, s l) = h 1 (s S, s l, x)

δ k + 1 (x, s l) = m a x s m [δ k (x, s m) + h k + 1 (s m, s l, x)]

ψ k (x, s l) = a r g m a x s m [δ k (x, s m) + h k + 1 (s m, s l, x)]

y T^= a r g m a x s m δ T (x, s m)

y t^= ψ t (x, y t + 1^)