1. 论文研读笔记
1.1 研究动机
本文是刘知远老师组的工作,也是之前组队比赛就推荐的bag level 关系抽取的base line 论文,值得仔细推敲一下。本文主要针对的是在远程标注(distant supervision)的情况下,如何处理含有大量噪声数据的关系抽取任务。在本文之前的工作,是只取一个最相关的句子作为关系抽取的依据,但是这样没有充分的利用语料。
1.2 研究方法
本文的方法是CNN的基础上,增加了句子级别的attention,作为bag内,和实体相关的一组句子的权重,具体结构如下:
1.3 实验结果
从实验结果看,句子级别的attention,对于远程标注的数据集有比较明显的提升
1.4 创新点
本文的主要贡献有三点:
1) 充分利用了实体间的所有关系表达的句子
2) 有效的去噪
3) 有比较好的适配性,文中提到对于两类CNN均在该任务下有明显提升
1.5 个人点评
本文在当时,算是第一篇把attention用在distant supervision的任务中,个人觉得,算是attention一个非常好的切入点。但是,对于bag level的关系抽取来说,数据不均衡和噪声数据确实非常影响模型的可用性。attention是一个很好的方法,但是目前实践看来,可能还不够。