BiLSTM-CRF中CRF层解析-5

2.6 预测标签

在之前的章节中，我们详细地介绍了BiLSTM-CRF模型和CRF损失函数的细节，大家可以采用开源工具（Keras, Chainer, TensorFlow等）完成自己的BiLSTM-CRF模型。模型搭建过程中，非常重要的是反向传播的实现，不要担心，这些框架在训练过程中可以自动的完成反向传播（即，计算梯度、更新模型参数）。而且，有一些框架已经完成的CRF层，此时，添加CRF层就只是一行代码的工作量了。

这节，我们将介绍，当我们的模型已经训练好时，如何预测一句话的标签。

Step1:BiLSTM-CRF的发射和转移得分
依然，假设我们有只有3个单词组成的一句话： $\mathbf{x} = [w_0, w_1, w_2]$ 。

而且，我们已经从BiLSTM层获得了发射得分矩阵，从CRF层得到的转移得分矩阵，其示例如下表所示：

	$\mathbf{l_1}$	$\mathbf{l_2}$
$\mathbf{w_0}$	$x_{01}$	$x_{02}$
$\mathbf{w_1}$	$x_{11}$	$x_{12}$
$\mathbf{w_2}$	$x_{21}$	$x_{22}$

$x_{ij}$ 表示单词 $w_i$ 被标记为 $l_j$ 的得分。

	$\mathbf{l_1}$	$\mathbf{l_2}$
$\mathbf{l_1}$	$t_{11}$	$t_{12}$
$\mathbf{l_2}$	$t_{21}$	$t_{22}$

$t_{ij}$ 从标签 $i$ 到标签 $j$ 的转移得分。

Step2:开始预测

如果你对维特比算法比较了解的话，这部分内容就很简单，如果不知道该算法，也不要担心，这里将一步一步地解释该算法，如下所示，我们将对这句话从左向右进行最终的标签预测：

$w_0$
$w_0$ → $w_1$
$w_0$ → $w_1$ → $w_2$

这里，会有两个变量obs 和 previous，previous表示前面所有步骤的结果，obs表示当前单词的信息。

$\mathbf{alpha_0}$ 记录最高历史得分， $\mathbf{alpha_1}$ 对应着相应的索引，这两个变量的细节之后会慢慢讲解。现在，请看下图：当一条小狗前往森林时，会在沿途做一些“标记”，上述两个变量就可以看作这些“标记”，这些“标记”的作用就是帮助狗狗返回。

$w_0$ :

$obs = [x_{01}, x_{02}]$
$previous = None$

开始，我们先观察单词 $w_0$ ，目前给 $w_0$ 标记的最好标签是显而易见的。
假如： $obs = [x_{01}=0.2, x_{02}=0.8]$ ，则 $w_0$ 的最好标签就是 $l_2$ 。
因为，当前只有一个单词，且没有标签之间的转移，因此没有转移得分。

$w_0$ → $w_1$ :

$obs = [x_{11}, x_{12}]$
$previous = [x_{01}, x_{02}]$

1）将previous扩展为：
$previous=\left( \begin{matrix} previous[0] &previous[0] \\previous[1]&previous[1]\end{matrix}\right)=\left( \begin{matrix} x_{01} &x_{01} \\x_{02}&x_{02}\end{matrix}\right)$
2）将obs扩展为：
$obs=\left( \begin{matrix} obs[0] &obs[1] \\obs[0]&obs[1]\end{matrix}\right)=\left( \begin{matrix} x_{11} &x_{12} \\x_{11}&x_{12}\end{matrix}\right)$
3）将 previous obs和转移得分相加：
$scores=\left( \begin{matrix} x_{01} &x_{01} \\x_{02}&x_{02}\end{matrix}\right)+\left( \begin{matrix} x_{11} &x_{12} \\x_{11}&x_{12}\end{matrix}\right)+\left( \begin{matrix} t_{11} &t_{12} \\t_{21}&t_{22}\end{matrix}\right)$
最终结果：
$scores=\left( \begin{matrix} x_{01}+x_{11}+t_{11} &x_{01} +x_{12}+t_{12}\\x_{02}+x_{11}+t_{21}&x_{02}+x_{12}+t_{22}\end{matrix}\right)$

你可能会奇怪，这与之前章节计算所有路径总得分也没啥区别啊，注意了，马上你就能看出区别了。
更新previous:
$previous=[max(scores[00],scores[10]),max(scores[01],scores[11])]$

假如，我们的得分是：

$scores=\left( \begin{matrix} x_{01}+x_{11}+t_{11} &x_{01} +x_{12}+t_{12}\\x_{02}+x_{11}+t_{21}&x_{02}+x_{12}+t_{22}\end{matrix}\right)=\left( \begin{matrix} 0.2&0.3\\0.5&0.4\end{matrix}\right)$

则更新后previous的值为：
$previous=[max(scores[00],scores[10]),max(scores[01],scores[11])]=[0.5,0.4]$
previous的意义就是：其存储了该单词标记为每个标签的最大得分。

[示例：START]
例如：
在语料库中有两个标签 $label1(l_1)$ and $label2(l_2)$ ，这两个标签的索引分别是0和1。
$previous[0]$ 是以第0个标签 $label1(l_1)$ 结束时路径的最大得分； $previous[1]$ 是以第1个标签 $label2(l_2)$ 结束时路径的最大得分，在每次迭代中，变量 $previous$ 存储了以每个标签结束时路径的最大得分，即，在每次迭代中，我们仅保留到每个标签的最好信息 $previous=[max(scores[00],scores[10]),max(scores[01],scores[11])]$ ，较少得分的路径信息直接丢弃。
[示例：END]
言归正传：
同时，我们设置两个变量来存储历史信息(得分和索引): $alpha_0$ and $alpha_1$ 。
这次迭代中，我们将最好的得分存储到 $alpha_0$ 。为了方便观察，我们将每个标签的最好得分加下划线：
$scores=\left( \begin{matrix} x_{01}+x_{11}+t_{11} &x_{01} +x_{12}+t_{12}\\\underline{x_{02}+x_{11}+t_{21}}&\underline{x_{02}+x_{12}+t_{22}}\end{matrix}\right)=\left( \begin{matrix} 0.2&0.3\\\underline{0.5}&\underline{0.4}\end{matrix}\right)$
$alpha_0=[(scores[10],scores[11])]=[(0.5,0.4)]$
同时相应的列索引将保存到 $alpha_1$ :
$alpha_1=[(ColumnIndex(scores[10]),ColumnIndex(scores[11]))]=[(1,1)]$
如上所述， $l_1$ 的索引是0， $l_2$ 的索引是1，所以， $(1,1)=(l_2,l_2)$ 表明：对于当前单词 $w_i$ 和标签 $l^{(i)}$ ：
$(1,1)$
$=(l_2,l_2)$
$=$ (we can get the maximum score 0.5 when the path is $\underline{l^{(i-1)}=l_2}$ → $\underline{l^{(i)}=l_1}$ ) ,
we can get the maximum score 0.4 when the path is $\underline{l^{(i-1)}=l_2}$ → $\underline{l^{(i)}=l_2}$ )

$l^{(i-1)}$ 是前个单词 $w_{i-1}$ 的标签。

$w_0$ → $w_1$ → $w_2$ :

$obs = [x_{21}, x_{22}]$
$previous = [0.5, 0.4]$
1）将previous扩展为：
$previous=\left( \begin{matrix} previous[0]&previous[0]\\previous[1]&previous[1]\end{matrix}\right)=\left( \begin{matrix} 0.5&0.5\\0.4&0.4\end{matrix}\right)$
2）将obs扩展为：
$obs=\left( \begin{matrix} obs[0]&obs[1]\\obs[0]&obs[1]\end{matrix}\right)=\left( \begin{matrix} x_{21}&x_{22}\\x_{21}&x_{22}\end{matrix}\right)$

3）将previous、obs和转移得分加起来：

$scores=\left( \begin{matrix} 0.5&0.5\\0.4&0.4\end{matrix}\right)+\left( \begin{matrix} x_{21}&x_{22}\\x_{21}&x_{22}\end{matrix}\right)+\left( \begin{matrix} t_{11}&t_{12}\\t_{21}&t_{22}\end{matrix}\right)$

最终得分:

$scores=\left( \begin{matrix} 0.5+x_{21}+t_{11} &x_0.5+x_{22}+t_{12}\\0.4+x_{21}+t_{21}&0.4+x_{22}+t_{22}\end{matrix}\right)$

更新previous：
$previous=[max(scores[00],scores[10]),max(scores[01],scores[11])]$
则该轮的得分为：
$scores=\left( \begin{matrix} 0.6&\underline{0.9}\\\underline{0.8}&0.7\end{matrix}\right)$

因此，更新previous:
$scores=[0.8,0.9]$
事实上，previous[0]和previous[1]之间较大的那个值则是最佳预测路径得分。
同时，每个标签的最大得分和索引添加到相应的 $alpha_0$ 和 $alpha_1$ ：
$alpha_0=[(0.5,0.4),\underline{(scores[10],scores[01])}]$
$=[(0.5,0.4),\underline{(0.8,0.9)}]$
$alpha_1=[(1,1),\underline{(1,0)}]$

Step3:找到具有最高得分的路径
这是最后一步了，这该步骤中， $alpha_0$ 和 $alpha_1$ 将用来寻找具有最高得分的路径，这一步从后向前做。

$w_1$ → $w_2$ :
首先，查看 $alpha_0$ 和 $alpha_1$ 的最后元素: $(0.8,0.9)$ 和 $(1,0)$ . 0.9 是当标签为 $l_2$ 时我们获取到的最高路径得分， $l_2$ 的索引是1, therefore check the value of $(1,0)[1]=0$ . The index “0” means the previous label is $l_1$ (the index of $l_1$ is 0). So we can get the best path of $w_1$ → $w_2$ : is $l_1$ → $l_2$ .

$w_0$ → $w_1$ :
我们继续向前移动，获取 $alpha_1$ 的元素：(1,1)，上述中我们知道， $w_1$ 的标签是 $l_1$ (索引是0)，因此我们检查(1,1)[0]=1，因此，我们可以获取这部分的最佳路径（ $w_0->w_1$ ）: $l_2->l_1$ 。
至此，我们已经获得了最佳路径 $l_2$ → $l_1$ → $l_2$ 。

代码

https://github.com/createmomo/CRF-Layer-on-the-Top-of-BiLSTM