条件随机场(CRF)相关理论知识

文章目录

无向概率图模型
条件随机场
CRF 实例
线性链条件随机场的简化形式
线性链条件随机场的矩阵形式
linear-CRF的三个基本问题

1，概率计算问题

前向后向概率概述
前向后向概率计算
linear-CRF的期望计算

2，学习问题

梯度下降法
拟牛顿法

3，预测问题

维特比算法解码思路
维特比算法流程

linear-CRF模型维特比算法实例
参考文章：

无向概率图模型

无向图模型的边没有方向，仅仅代表两个事件有关联。

条件随机场(CRF)相关理论知识

无向图模型将概率分解为所有最大团上的某种函数之积。

在图论中，最大团指的是满足所有节点相互连接的最大子图。因为最大团需要考虑所有变量，为此，无向图模型定义了一些虚拟的因子节点，每个因子节点只连接部分节点，组成更小的最大团。

条件随机场(CRF)相关理论知识

蓝色虚线表示最大团，黑色方块表因子节点，圆圈则表示变量节点。

条件随机场

条件随机场( Conditional Random Field, CRF)是一种给定输入随机变量 x，求解条件概率 p(y| x) 的概率无向图模型。用于序列标注时，特例化为线性链( linear chain )条件随机场。此时，输人输出随机变量为等长的两个序列。

线性链条件随机场如下图所示:
条件随机场(CRF)相关理论知识

每个 Xt 上方有 3 个灰色节点，代表 Xt 的 3 个特征，当然还可以是任意数量的特征，体现了特征的丰富性。黑色方块是因子节点，可以理解为一个特征函数。其中仅仅利用了 Xt 和 Yt 的特征称作状态特征(s)，利用了 Yt-1 的特征则称作转移特征(t)。

**状态特征(s)**是定义在Y节点上的节点特征函数，这类特征函数只和当前节点有关，记为：
$s_l(y_i, x,i),\;\; l =1,2,...L$
其中L是定义在该节点的节点特征函数的总个数，ii是当前节点在序列的位置。

**转移特征(t)**是定义在Y上下文的局部特征函数，这类特征函数只和当前节点和上一个节点有关，记为：
$t_k(y_{i-1},y_i, x,i),\;\; k =1,2,...K$
其中K是定义在该节点的局部特征函数的总个数，i是当前节点在序列的位置。之所以只有上下文相关的局部特征函数，没有不相邻节点之间的特征函数，是因为我们的linear-CRF满足马尔科夫性。

无论是节点特征函数还是局部特征函数，它们的取值只能是0或者1。即满足特征条件或者不满足特征条件。同时，我们可以为每个特征函数赋予一个权值，用以表达我们对这个特征函数的信任度。假设 $t_k$ 的权重系数是 $\lambda_k, s_l$ 的权重系数是 $\mu_l$ ，则linear-CRF由我们所有的 $t_k,\lambda_k, s_,\mu_l$ 共同决定。

此时我们得到了linear-CRF的参数化形式如下：
$P(y|x) = \frac{1}{Z(x)}exp\Big(\sum\limits_{i,k} \lambda_kt_k(y_{i-1},y_i, x,i) +\sum\limits_{i,l}\mu_ls_l(y_i, x,i)\Big)$
其中，Z(x)为规范化因子：
$Z(x) =\sum\limits_{y} exp\Big(\sum\limits_{i,k} \lambda_kt_k(y_{i-1},y_i, x,i) +\sum\limits_{i,l}\mu_ls_l(y_i, x,i)\Big)$
回到特征函数本身，每个特征函数定义了一个linear-CRF的规则，则其系数定义了这个规则的可信度。所有的规则和其可信度一起构成了我们的linear-CRF的最终的条件概率分布。

CRF 实例

这里我们给出一个linear-CRF用于词性标注的实例，为了方便，我们简化了词性的种类。假设输入的都是三个词的句子，即 $X=(X_1,X_2,X_3)$ ，输出为 $Y=(Y_1,Y_2,Y_3)$ ，其中， $Y \in \{1(名词)，2(动词)\}$ ，则Y的可能输出序列对应的线性链条件随机场结构如下图所示：

条件随机场(CRF)相关理论知识
给定取值为1的特征函数如下：
$t_1 =t_1(y_{i-1} = 1, y_i =2,x,i), i =2,3,\;\;\lambda_1=1\\ t_2 =t_2(y_1=1,y_2=1,x,2)\;\;\lambda_2=0.5\\ t_3 =t_3(y_2=2,y_3=1,x,3)\;\;\lambda_3=1\\ t_4 =t_4(y_1=2,y_2=1,x,2)\;\;\lambda_4=1\\ t_5 =t_5(y_2=2,y_3=2,x,3)\;\;\lambda_5=0.2\\ s_1 =s_1(y_1=1,x,1)\;\;\mu_1 =1\\ s_2 =s_2( y_i =2,x,i), i =1,2,\;\;\mu_2=0.5\\ s_3 =s_3( y_i =1,x,i), i =2,3,\;\;\mu_3=0.8\\ s_4 =s_4(y_3=2,x,3)\;\;\mu_4 =0.5$
目标是求标记序列 $(y_1=1,y_2=2,y_3=2)$ 的非规范化概率。

简单解释上面的特征函数：

$t_2$ 函数表示输入的第一个y必须是 $y_1$ 且等于1，第二个y必须是 $y_2$ 且为1。当输入的两个y满足这两个条件事，函数取值为1，否则取值为0(例如： $t_2 (y_1=1,y_2=2,x,2)=0$ )。当 $t_2$ 取值为1时， $t_{2}$ 对应的置信度为0.5。

$t_1$ 函数表示输入的第一个y是1且第二个y是2时才取1，否则取0。 $t_1$ 取1时，则 $t_1$ 对应的概率为1。

$s_1$ 函数表示输入的y必须是 $y_1$ 且等于1，此时 $s_1$ 的置信度为 $\mu_1$ 。

其他的特征函数以此类推。

更具体的理解是：

t函数给定并约束了不同词性之间的转移概率，例如约定名词后接动词的概率为1，名词后面跟名词的概率为0.5；

s函数给定并约束了第i个位置为某个词性的概率，例如第一个字为名词的概率为1，第一个第二个字为动词的概率为0.5；

利用linear-CRF的参数化公式，我们有：
$P(y|x) \propto exp\Big[\sum\limits_{k=1}^5\lambda_k\sum\limits_{i=2}^3t_k(y_{i-1},y_i, x,i) + \sum\limits_{l=1}^4\mu_l\sum\limits_{i=1}^3s_l(y_i, x,i) \Big]$
注意上面的式子中的 $\sum\limits_{i=2}^3$ 和$ \sum\limits_{i=1}^3$，意味着所有的特征函数会遍历每一个可能的点和边。

带入 $(y_1=1,y_2=2,y_3=2)$ 后展开，得到：
$P(y_1=1,y_2=2,y_3=2|x) \propto exp(3.2)$

线性链条件随机场的简化形式

假设我们有 $K_1$ 个转移特征t， $K_2$ 个状态特征s，总共有 $K=K_1 + K_2$ 个特征。并且令：

$f_k(y_{i-1},y_i,x,i)= \begin{cases} t_k(y_{i-1},y_i,x,i),&k=1,2,\dots,K_1\\ s_l(y_i,x,i),&k=K_1+l;l=1,2,\dots,K_2 \end{cases}$
然后对两种特征函数在各个位置 $i$ 求和，得到：
$f_k(y,x)=\sum_{i=1}^nf_k(y_{i-1},y_i,x,i),k=1,2,\dots,K$
同时我们也统一 $f_k(y_{i-1},y_i, x,i)$ 对应的权重系数 $w_{k}$ 如下：
$w_k= \begin{cases} \lambda_k,&k=1,2,\dots,K_1\\ \mu_l,&k=K1+l;l=1,2,\dots,K_2 \end{cases}$
于是条件随机场可以表示为
$\begin{aligned} P(y|x)&=\frac{1}{Z(x)}\exp\sum_{k=1}^Kw_kf_k(y,x)\\ Z(x)&=\sum_y\exp\sum_{k=1}^Kw_kf_k(y,x) \end{aligned}$
其中 $Z(x)$ 为规范化因子。

若以 $w$ 表示权值向量，即
$w=(w_1,w_2,\dots,w_K)^T$
以 $F$ 表示全局特征向量，即
$F(y,x)=(f_1(y,x),f_2(y,x),\dots,f_K(y,x))^T$
条件随机场可以表示成向量内积的形式
$\begin{aligned} P_w(y|x)&=\frac{\exp(w\cdot F(y,x))}{Z_w(x)}\\ Z_w(x)&=\sum_y\exp\left(w\cdot F(y,x)\right) \end{aligned}$
以上便得到了向量形式的表示。

线性链条件随机场的矩阵形式

上面的表示形式还可以再加以整理，变为矩阵的形式。为此定义一个 $m\times m$ 的矩阵M，m为y所有可能状态的个数。M定义如下：
$\begin{aligned} M_i(x)&=\left[M_i(y_{i-1},y_i|x)\right]\\ M_i(y_{i-1},y_i)&=\exp\left(W_i(y_{i-1},y_i|x)\right)\\ W_i(y_{i-1},y_i|x)&=\sum_{k=1}^Kw_kf_k(y_{i-1},y_i|x) \end{aligned}$
$M_i(x)$ 是 $m\times m$ 的矩阵，对上文提到的实例而言，M为2x2的矩阵。角标i表示是第i个位置的矩阵。

$M_i(y_{i-1},y_i)$ 是构成矩阵 $M_i(x)$ 的元素，其在矩阵中的位置为： $(y_{i-1}, y_i)$ 。例如 $(y_{i-1}=1, y_i=2)$ 表示是矩阵第一行，第二列的位置，且取值为： $\exp\left(W_i(y_{i-1}=1,y_i=2|x)\right)$ 。

引入起点和终点状态标记 $y_0=start=1,y_{n+1}=end=1$ ，则有下图所示的状态路径：
条件随机场(CRF)相关理论知识
这时 $P_w(y|x)$ 可以矩阵形式表示：
$P_w(y|x)=\frac{1}{Z_w(x)}\prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x) \\ Z_w(x)=(M_1(x)M_2(x)\dots M_{n+1}(x))_{start,stop}$
其中 $Z_w(x)$ 为规范化因子，是n+1个矩阵乘积结果在(start=1,stop=1)位置上的元素，也就是计算结果对应的矩阵在左上角位置的元素值。

为什么是n+1个矩阵？因为从start到stop之间有 $n+1=3+1=4$ 个转移状态：
$M_1(y_0,y_1),M_2(y_1,y_2),M_3(y_2,y_3),M_4(y_3,y_4)$
回顾之前做的例题，有观测序列 $x$ ，状态序列 $y,i=1,2,3, n=3$ ，标记 $y_i\in\{1,2\}$ ，假设 $y_0=start=1,y_4=stop=1$ ，各个位置的随机矩阵(可以理解为状态转移矩阵)为：
$\begin{aligned} M_1(x)= \begin{bmatrix} &a_{11}&a_{12}\\ &0&0 \end{bmatrix} &,M_2(x)= \begin{bmatrix} &b_{11}&b_{12}\\ &b_{21}&b_{22} \end{bmatrix} \\ M_3(x)= \begin{bmatrix} &c_{11}&c_{12}\\ &c_{21}&c_{22} \end{bmatrix} &,M_4(x)= \begin{bmatrix} &1&0\\ &1&0 \end{bmatrix} \end{aligned}$
其中：
$M_i(x)=\left[\exp\left(\sum_{k=1}^Kw_kf_k(y_{i-1},y_i|x)\right)\right], i=1,2,\dots,n+1$
例如 $M_1(x)$ ：
$M_1(x)= \begin{bmatrix} &a_{11} =\exp\left(\sum_{k=1}^Kw_kf_k(y_{0}=1,y_1=1|x)\right)&a_{12}=\exp\left(\sum_{k=1}^Kw_kf_k(y_{0}=1,y_1=2|x)\right)\\ &a_{21}=\exp\left(\sum_{k=1}^Kw_kf_k(y_{0}=2,y_1=1|x)\right)&a_{22}=\exp\left(\sum_{k=1}^Kw_kf_k(y_{0}=2,y_2=1|x)\right) \end{bmatrix}$
显然， $a_{21}, a_{22}$ 为0。

将上述矩阵相乘：
$\prod_{i=1}^{4}M_i(y_{i-1},y_i|x)$
可以得到各个路径的非规范化概率为：
$a_{11}b_{11}c_{11},\quad a_{11}b_{11}c_{12},\quad a_{11}b_{12}c_{21},\quad a_{11}b_{12}c_{22},\quad \\ a_{12}b_{21}c_{11},\quad a_{12}b_{21}c_{12},\quad a_{12}b_{22}c_{21},\quad a_{12}b_{22}c_{22},\quad$
规范化因子，即最终计算结果左上角的元素，为：
$a_{11}b_{11}c_{11}+ a_{11}b_{11}c_{12}+ a_{11}b_{12}c_{21}+ a_{11}b_{12}c_{22}+ \\ a_{12}b_{21}c_{11}+ a_{12}b_{21}c_{12}+ a_{12}b_{22}c_{21}+ a_{12}b_{22}c_{22}$

linear-CRF的三个基本问题

1，概率计算问题

即给定 linear-CRF的条件概率分布P(y|x)，在给定输入序列x和输出序列y时，计算条件概率 $P(y_i|x)$ 和 $P(y_i−1，y_i|x)$ 以及对应的期望。

前向后向概率概述

要计算条件概率 $P(y_i|x)$ 和 $P(y_{i-1}，y_i|x)$ ，可以使用前向后向算法来完成。

前向概率

定义 $\alpha_i(y_i|x)$ 表示序列位置i的标记是 $y_i$ 时，在位置i之前的部分标记序列的非规范化概率。

而我们在上面定义了：
$M_i(y_{i-1},y_i |x) = exp(\sum\limits_{k=1}^Kw_kf_k(y_{i-1},y_i, x,i))$
用于计算在给定 $y_{i-1}$ 时，从 $y_{i-1}$ 转移到 $y_i$ 的非规范化概率。

那么在得知在位置 $i+1$ 处标记为 $y_{i+1}$ 时，位置 $i+1$ 之前的标记序列非规范化概率 $\alpha_{i+1}(y_{i+1}|x)$ 的递推公式：
$\alpha_{i+1}(y_{i+1}|x) = \alpha_i(y_i|x)M_{i+1}(y_{i+1},y_i|x) \;\; i=1,2,...,n+1$
特别的，在起点处，我们令：
$\alpha_0(y_0|x)= \begin{cases} 1 & {y_0 =start}\\ 0 & {else} \end{cases}$
由于在位置 $i+1$ 处， $y_{i+1}$ 的可能取值有m种，我们用 $\alpha_i(x)$ 表示这m个可能取值对应的前向向量：
$\alpha_i(x) = (\alpha_i(y_i=1|x), \alpha_i(y_i=2|x), ... \alpha_i(y_i=m|x))^T$
则递推公式可以表示为：
$\alpha_{i+1}^T(x) = \alpha_i^T(x)M_{i+1}(x)$
后向概率

同样定义 $\beta_i(y_i|x)$ 表示序列位置i的标记是 $y_i$ 时，在位置i之后的部分(i+1到n的部分)标记序列的非规范化概率。

那么在得知 $i+1$ 处标记为 $y_(i+1)$ 时，位置i之后的部分标记序列的非规范化概率 $\beta_i(y_i|x)$ 的递推公式：
$\beta_{i}(y_{i}|x) = M_{i+1}(y_i,y_{i+1}|x)\beta_{i+1}(y_{i+1}|x)$
特别的，在终点处定义：
$\beta_{n+1}(y_{n+1}|x)= \begin{cases} 1 & {y_{n+1} =stop}\\ 0 & {else} \end{cases}$
如果用向量表示则有：
$\beta_i(x) = M_{i+1}(x)\beta_{i+1}(x)$
规范化因子 $Z(x)$ 的表达式为：
$Z(x) = \sum\limits_{c=1}^m\alpha_{n}(y_c|x) = \sum\limits_{c=1}^m\beta_{1}(y_c|x)$
向量化的表示为：
$Z(x) = \alpha_{n}^T(x) \bullet \mathbf{1} = \mathbf{1}^T \bullet \beta_{1}(x)$
其中，1是m维全1向量。

前向后向概率计算

有了前向后向概率的定义和计算方法，我们就很容易计算序列位置i的标记是 $y_i$ 时的条件概率 $P(y_i|x)$ ：
$P(y_i|x) = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{Z(x)} = \frac{\alpha_i^T(y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}}$
也容易计算序列位置i的标记是 $y_i$ ，位置 $i-1$ 的标记是 $y_{i-1}$ 时的条件概率 $P(y_{i-1},y_i|x)$ :
$\begin{aligned} P(y_{i-1},y_i|x) &= \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{Z(x)} \\ &= \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}} \end{aligned}$

linear-CRF的期望计算

有了上一节计算的条件概率，我们也可以很方便的计算联合分布 $P(x,y)$ 与条件分布 $P(y|x)$ 的期望。

特征函数 $f_k(x,y)$ 关于条件分布 $P(y|x)$ 的期望表达式是：
$\begin{aligned} E_{P(y|x)}[f_k] & = E_{P(y|x)}[f_k(y,x)] \\ & = \sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}P(y_{i-1},y_i|x)f_k(y_{i-1},y_i,x, i) \\ & = \sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i) \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}} \end{aligned}$
同样可以计算联合分布 $P(x,y)$ 的期望：
$\begin{aligned} E_{P(x,y)}[f_k] & = \sum\limits_{x,y}P(x,y) \sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& = \sum\limits_{x}\overline{P}(x) \sum\limits_{y}P(y|x) \sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x, i) \\& = \sum\limits_{x}\overline{P}(x)\sum\limits_{i=1}^{n+1} \sum\limits_{y_{i-1}\;\;y_i}f_k(y_{i-1},y_i,x, i) \frac{\alpha_{i-1}^T(y_{i-1}|x)M_i(y_{i-1},y_i|x)\beta_i(y_i|x)}{ \alpha_{n}^T(x) \bullet \mathbf{1}} \end{aligned}$
假设一共有K个特征函数，则 $k=1,2,...K$ 。

2，学习问题

在linear-CRF模型参数学习问题中，我们给定训练数据集X和对应的标记序列Y，K个特征函数 $f_k(x,y)$ ，需要学习linear-CRF的模型参数 $w_k$ 和条件概率 $P_w(y|x)$ ，其中条件概率 $P_w(y|x)$ 和模型参数 $w_k$ 满足以下关系：
$P_w(y|x) = P(y|x) = \frac{1}{Z_w(x)}exp\sum\limits_{k=1}^Kw_kf_k(x,y) = \frac{exp\sum\limits_{k=1}^Kw_kf_k(x,y)}{\sum\limits_{y}exp\sum\limits_{k=1}^Kw_kf_k(x,y)}$
所以我们的目标就是求出所有的模型参数 $w_k$ ，这样条件概率 $P_w(y|x)$ 可以从上式计算出来。

梯度下降法

在使用梯度下降法求解模型参数之前，我们需要定义我们的优化函数，一般极大化条件分布 $P_w(y|x)$ 的对数似然函数如下：
$L(w)= log\prod_{x,y}P_w(y|x)^{\overline{P}(x,y)} = \sum\limits_{x,y}\overline{P}(x,y)logP_w(y|x)$
其中 $\overline{P}(x,y)$ 为经验分布，可以从先验知识和训练集样本中得到,这点和最大熵模型类似。为了使用梯度下降法，我们现在极小化 $f(w) = -L(P_w)$ 如下：
$\begin{aligned}f(w) & = -\sum\limits_{x,y}\overline{P}(x,y)logP_w(y|x) \\ &= \sum\limits_{x,y}\overline{P}(x,y)logZ_w(x) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \\& = \sum\limits_{x}\overline{P}(x)logZ_w(x) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \\& = \sum\limits_{x}\overline{P}(x)log\sum\limits_{y}exp\sum\limits_{k=1}^Kw_kf_k(x,y) - \sum\limits_{x,y}\overline{P}(x,y)\sum\limits_{k=1}^Kw_kf_k(x,y) \end{aligned}$
对w求导可以得到：
$\frac{\partial f(w)}{\partial w} = \sum\limits_{x,y}\overline{P}(x)P_w(y|x)f(x,y) - \sum\limits_{x,y}\overline{P}(x,y)f(x,y)$
有了w的导数表达式，就可以用梯度下降法来迭代求解最优的w了。注意在迭代过程中，每次更新w后，需要同步更新 $P_w(x,y)$ 以用于下一次迭代的梯度计算。

拟牛顿法

条件随机场模型的学习通过拟牛顿法进行。

CRF的模型：
$\begin{aligned}P(y|x)&=\frac{1}{Z(x)}\exp\sum_{i=1}^nw_if_i(y,x)\\Z(x)&=\sum_y\exp\sum_{i=1}^nw_if_i(y,x)\end{aligned}$
已知训练数据的经验概率分布 $\widetilde {P}(x,y)$ ，条件概率分布的对数似然函数表示为：
$L_{\widetilde {P}}(P_w)=log \prod_{x,y}{P}(y|x)^{\widetilde {P}(x,y)} =\sum \limits_{x,y}\widetilde {P}(x,y)\log{P}(y|x)$
所以
$\begin{aligned}L_{\widetilde {P}}(P_w)&=\sum \limits_{x,y}\widetilde {P}(x,y)\log{P}(y|x)\\&=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x,y)\log{(Z_w(x))}\\&=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x)P(y|x)\log{(Z_w(x))}\\&=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))}\sum_{y}P(y|x)\\&=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))}\end{aligned}$
以上推导用到了 $\sum\limits_yP(y|x)=1$

要极大化似然函数，即极小化 $-L_{\widetilde {P}}(P_w)$ 。

所以学习的优化目标是：
$\min\limits_{w \in \R^n} f(w) =\sum \limits_{x}\widetilde{P}(x)\log{\sum_y\exp \left(\sum_{i=1}^nw_if_i(y,x)\right)} - \sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y)$
其梯度函数是
$g(w) = \left( \frac{\partial f(w)}{\partial w_1},\frac{\partial f(w)}{\partial w_2},\ldots \frac{\partial f(w)}{\partial w_n}\right)^T$
其中：
$\frac{\partial f(w)}{\partial w_i}=\sum \limits_{x,y}\widetilde{P}(x)P_w(y|x)f_i(y,x) - \sum \limits_{x,y}\widetilde {P}(x,y)f_i(x,y)$
向量化：
$\frac{\partial f(w)}{\partial w}=\sum \limits_{x,y}\widetilde{P}(x)P_w(y|x)f(y,x) - \sum \limits_{x,y}\widetilde {P}(x,y)f(x,y)$

条件随机场学习的BFGS算法：

输入：特征函数 $f_1,f_2,\ldots,f_n$ ；经验分布 $\widetilde P(x,y)$ ;

输出：最优参数 $\hat w$ ; 最优模型 $P_w(y|x)$ 。

（1）选定初始点 $w^{(0)}$ 取 $\mathbf B_0$ 为正定对称矩阵， $k=0$ 。

（2）计算 $g_k=g(w^{(k)})$ 。若 $g_k=0$ 则停止计算，否则转(3)。

（3）由 $B_kp_k=-g_k$ 求出 $p_k$

（4）一维搜索：求 $\lambda_k$ 使得：
$f(w^{(k)}+\lambda_kp_k)= \min\limits_{\lambda \geq 0}f(w^{(k)}+\lambda p_k)$
（5）置 $w^{(k+1)} = w^{(k)} + \lambda_k p_k$

（6）计算 $g_{k+1} = g(w^{(k+1)})$ ，若 $g_{k+1} = 0$ ，则停止计算，否则，按下式更新 $B_{k+1}$ :
$\mathbf B_{k+1} = \mathbf B_{k}+\frac{y_ky_k^T}{y_k^T\delta_k}-\frac{\mathbf B_k\delta_k \delta_k^T\mathbf B_k}{\delta_k^T\mathbf B_k\delta_k}$
其中：
$y_k = g_{k+1} - g_k, \qquad\delta_k=w^{(k+1)} - w^{k}$
（7）置 $k=k+1$ , 转(3)

3，预测问题

维特比算法解码思路

预测问题也可以理解为解码问题：给定条件随机场的条件概率 $P(y|x)$ 和一个观测序列x,要求出满足 $P(y|x)$ 最大的序列y。这个解码算法最常用的还是和HMM解码类似的维特比算法。

对于我们linear-CRF中的维特比算法，我们定义一个局部状态 $\delta_i(l)$ ，表示在位置 $i$ 标记 $l$ 各个可能取值(1,2…m)对应的非规范化概率的最大值。之所以用非规范化概率是，规范化因子 $Z(x)$ 不影响最大值的比较。根据 $\delta_i(l)$ 的定义，我们递推在位置 $i+1$ 标记 $l$ 的表达式为：
$\delta_{i+1}(l) = \max_{1 \leq j \leq m}\{\delta_i(j) + \sum\limits_{k=1}^Kw_kf_k(y_{i} =j,y_{i+1} = l,x,i)\}\;, l=1,2,...m$
我们需要用另一个局部状态 $\Psi_{i+1}(l)$ 来记录使 $\delta_{i+1}(l)$ 达到最大的位置 $i$ 的标记取值，这个值用来最终回溯最优解， $\Psi_{i+1}(l)$ 的递推表达式为：
$\Psi_{i+1}(l) = arg\;\max_{1 \leq j \leq m}\{\delta_i(j) + \sum\limits_{k=1}^Kw_kf_k(y_{i} =j,y_{i+1} = l,x,i)\}\; ,l=1,2,...m$

维特比算法流程

linear-CRF模型维特比算法流程：

输入：模型的K个特征函数，和对应的K个权重。观测序列 $x=(x_1,x_2,...x_n)$ ，可能的标记个数m

输出：最优标记序列 $y^* =(y_1^*,y_2^*,...y_n^*)$

具体而言：

1，初始化：
$\delta_{1}(l) = \sum\limits_{k=1}^Kw_kf_k(y_{0} =start,y_{1} = l,x,i)\}\;, l=1,2,...m \\ \Psi_{1}(l) = start\;, l=1,2,...m$
2，对于 $i=1,2...n-1$ 进行递推：
$\delta_{i+1}(l) = \max_{1 \leq j \leq m}\{\delta_i(j) + \sum\limits_{k=1}^Kw_kf_k(y_{i} =j,y_{i+1} = l,x,i)\}\;, l=1,2,...m$

$\Psi_{i+1}(l) = arg\;\max_{1 \leq j \leq m}\{\delta_i(j) + \sum\limits_{k=1}^Kw_kf_k(y_{i} =j,y_{i+1} = l,x,i)\}\; ,l=1,2,...m$

3， $i$ 迭代到n-1时停止：
$y_n^* = arg\;\max_{1 \leq j \leq m}\delta_n(j)$
4，回溯：
$y_i^* = \Psi_{i+1}(y_{i+1}^*)\;, i=n-1,n-2,...1$
最终得到的标记序列为：
$y^* =(y_1^*,y_2^*,...y_n^*)$

linear-CRF模型维特比算法实例

假设输入的都是三个词的句子，即 $X=(X_1,X_2,X_3)$ ，输出的词性标记为 $Y=(Y_1,Y_2,Y_3)$ ，其中 $Y \in \{1(名词)，2(动词)\}$ 。

这里只标记出取值为1的特征函数如下：
$t_1 =t_1(y_{i-1} = 1, y_i =2,x,i), i =2,3,\;\;\lambda_1=1\\ t_2 =t_2(y_1=1,y_2=1,x,2)\;\;\lambda_2=0.6\\ t_3 =t_3(y_2=2,y_3=1,x,3)\;\;\lambda_3=1\\ t_4 =t_4(y_1=2,y_2=1,x,2)\;\;\lambda_4=1\\ t_5 =t_5(y_2=2,y_3=2,x,3)\;\;\lambda_5=0.2\\ s_1 =s_1(y_1=1,x,1)\;\;\mu_1 =1\\ s_2 =s_2( y_i =2,x,i), i =1,2,\;\;\mu_2=0.5\\ s_3 =s_3( y_i =1,x,i), i =2,3,\;\;\mu_3=0.8\\ s_4 =s_4(y_3=2,x,3)\;\;\mu_4 =0.5$
求标记(1,2,2)的最可能的标记序列。

首先初始化:
$\delta_1(1) = \mu_1s_1 = 1\;\;\;\delta_1(2) = \mu_2s_2 = 0.5\;\;\;\Psi_{1}(1) =\Psi_{1}(2) = start$
接下来开始递推，先看位置2的：
$\begin{aligned} \delta_2(1) &= max\{\delta_1(1) + t_2\lambda_2+\mu_3s_3, \delta_1(2) + t_4\lambda_4+\mu_3s_3 \} \\ &= max\{1+0.6+0.8,0.5+1+0.8\} \\ &=2.4\;\;\;\\ \end{aligned}$

$\Psi_{2}(1) =1$

$\begin{aligned} \delta_2(2) &= max\{\delta_1(1) + t_1\lambda_1+\mu_2s_2, \delta_1(2) + \mu_2s_2\}\\& = max\{1+1+0.5,0.5+0.5\} \\&=2.5\;\;\; \end{aligned}$

$\Psi_{2}(2) =1$

再看位置3的：
$\begin{aligned} \delta_3(1) &= max\{\delta_2(1) +\mu_3s_3, \delta_2(2) + t_3\lambda_3+\mu_3s_3\} \\&= max\{2.4+0.8,2.5+1+0.8\} \\&=4.3 \end{aligned}$

$\Psi_{3}(1) =2$

$\begin{aligned} \delta_3(2) &= max\{\delta_2(1) +t_1\lambda_1 + \mu_4s_4, \delta_2(2) + t_5\lambda_5+\mu_4s_4\} \\&= max\{2.4+1+0.5,2.5+0.2+0.5\} \\&=3.9 \end{aligned}$

$\Psi_{3}(2) =1$

最终得到 $y_3^* =\arg\;max\{\delta_3(1), \delta_3(2)\}$ 递推回去，得到：
$y_2^* = \Psi_3(1) =2\;\;y_1^* = \Psi_2(2) =1$
即最终的结果为 $(1,2,1)$ ，即标记为(名词，动词，名词)。

参考文章：

《统计学习方法第二版》

条件随机场CRF(一)从随机场到线性链条件随机场

条件随机场CRF(二) 前向后向算法评估标记序列概率

条件随机场CRF(三) 模型学习与维特比算法解码