Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

主要贡献

提出使用PCNN来自动提取特征。
往PCNN中加入multi-instance learning，用来解决远程监督引发的错误标签问题。
提出分段进行max pooling，从而考虑两个Entity之间的结构特征。

作者提出，之前关于关系分类的方法主要分为2种：
1. 基于特征的方法，这种方式对人工特征向量的要求较高，需要为数据集找出一种合适的特征表示。
2. 基于kernel的方法，这种方式可以对输入进行丰富的表示，例如句法树。它能够通过核函数来提特征，当然也有很多核函数被提出，例如：convolution tree kernel，subsequence kernel，dependency tree kernel

网络架构

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

以上是PCNN的网络架构，主要分为四部分组成：Vector representation、Convolution、Piecewise max pooling、Softmax classifier.

Vector representation

Word Embeddings:采用Wrod2Vec。
Position Embeddings:采用当前词到两个目标词的距离，2维。
上图中展示的Vector representation中，Word Embedding维度为4，Position Embeddings维度为2。向量总维度为 $d$ = 6。

Convolution

作者给出如下定义：
1. 一个feature map的参数为 $w \in R^{w * d}$ 。
2. 一句话中单词的数量为 $s$ ，一个feature map卷积完得到结果 $c \in R^{s - w + 1}$
3. 定义了n个feature map $W = {w_{1}, w_{2}, \dots, w_{n}}$ ,figure3中展示了n=3的情况，因此生成了绿、蓝、橙三个 $s$ 。

Piecewise Max Pooling（分段max pooling）

如Figure3所示，Convolution的输出为 $C \in R^{n * (s + w - 1)}$ ，作者将每一行卷积结果分成3段 ${c_{i 1}, c_{i 2}, c_{i 3}}$ ，以两个Entity作为划分点，如图中灰色格子。然后对 ${c_{i 1}, c_{i 2}, c_{i 3}}$ 分别进行max pooling:

p_{i j} = m a x (c_{i j}) 1 \leq i \leq n, 1 \leq j \leq 3

这样

C

的每行会变成长度为3的向量

p_{i} = {p_{i 1}, p_{i 2}, p_{i 3}}

，最终将它们拼成一个长度为3n的向量

q

,然后使用tanh进行非线性变化得到

g = t a n h (q)

。

Softmax Output

将 $g$ 喂入soft max 分类器：

o = W_{1} g + b

其中

W_{1} \in R^{n_{1} * 3 n}

是一个权重矩阵，

o

是最终输出，作者也在这一层加了dropout

Multi-instance Learning

作者将所有的句子分成T个bag ${M_{1}, M_{2}, \dots, M_{T}}$ ，每个bag中包含 $q_{i}$ 句句子 $M_{i} = {m_{i}^{1}, m_{i}^{2} ， c d o t s, m_{i}^{q_{i}}}$
算法如下：
Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

损失函数使用交叉熵

实验结果

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks