-
为什么提出 —— 远程监督存在的一些问题
1) 已经存在的知识库会启发式的对实体
KB当中Entity之间的关系和自然语言文本的对齐是启发式的,两个Entity同时存在一个句子就被标记KB当中 的关系。
然而这种假设太强,就存在许多错误标记的问题(如“【乔布斯】吃了一个【苹果】”,就是错误标记,KB中 表示这两个是CEO关系,但实际上不是)
2)采用统计模型添加特征存在太大的噪声导致训练结果很差
-
提出了什么
PCNNs: Piecewise Convolutional Neural Networks with multi-instance learning
如何解决:
1)错误标记的问题,采用了Multiple Instance Learning(所有instance被聚合到若干个包当中,一个包如果被 标记为正项,那么至少有一个正项instance,如果被标记为负项,那么 一定不存在一个正项instance),由此降 低错误标记带来的影响。
2)特征工程的错误,则直接不引入任何人工特征工程的工作,直接使用一个CNN + Piecewise Max Pooling 去抽取特征。
主要贡献:
1)自动提取特征,不需要NLP工具
2)融合multi-instance learning来解决wrong label的问题
3)利用piecewise max pooling来提取两个entity之间结构化的信息
Vector Representation, Convolution, Piecewise Max Pooling and Softmax Output
-
模型
1)输入
word tokens(look up in Word Embeddings)
position features
use Skip-gram model (Mikolov et al., 2013) to train word embeddings