Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

1) 已经存在的知识库会启发式的对实体

KB当中Entity之间的关系和自然语言文本的对齐是启发式的，两个Entity同时存在一个句子就被标记KB当中的关系。

然而这种假设太强，就存在许多错误标记的问题(如“【乔布斯】吃了一个【苹果】”，就是错误标记，KB中表示这两个是CEO关系，但实际上不是)

2）采用统计模型添加特征存在太大的噪声导致训练结果很差

PCNNs: Piecewise Convolutional Neural Networks with multi-instance learning

如何解决：

1）错误标记的问题，采用了Multiple Instance Learning（所有instance被聚合到若干个包当中，一个包如果被标记为正项，那么至少有一个正项instance，如果被标记为负项，那么一定不存在一个正项instance），由此降低错误标记带来的影响。

2）特征工程的错误，则直接不引入任何人工特征工程的工作，直接使用一个CNN + Piecewise Max Pooling 去抽取特征。

主要贡献：

1）自动提取特征，不需要NLP工具

2）融合multi-instance learning来解决wrong label的问题

3）利用piecewise max pooling来提取两个entity之间结构化的信息

Vector Representation, Convolution, Piecewise Max Pooling and Softmax Output

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

1）输入

word tokens（look up in Word Embeddings）

position features

use Skip-gram model (Mikolov et al., 2013) to train word embeddings