《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised Relation Extraction 》
Abstract
和往常的远程监督关系抽取差不多,首先说下远程监督的优点,可以省去标注人力物力;缺点就是按照外部知识来进行标注,容易导致标注的关系是错误的,因此作者提出了CCL(collaborative curriculum learning)来解决远程监督产生的噪音数据,用到了两个selection models来降低噪音数据产生的影响,其中用到的loss函数分别为conflicts loss(文中对该loss进行了大量的实验)或者small loss,最终实验效果达到了sota(当前最好的效果),同时证实了针对远程监督的关系抽取,该模型确实具有降噪的作用。
Introduction
该部分主要讲了远程监督的关系抽取定义、优缺点和主要的贡献,主要贡献有三点:
1.第一次提出了CCL(collaborative curriculum learning)的概念。
2.不是像以往那样先想法分离噪音数据,然后再训练模型预测,该模型一次训练,实现简单。
3.利用自注意力机制的CNNs提升效果。
4.实验效果达到了SOTA
Related Work
该部分主要讲了相关的远程关系抽取的方法,这里不多介绍。
Methodology
首先输入:
和以往一样,word Embedding+positionEmbedding
中间分表包括:zeng的piece-wise pooling CNN(改进,加了个自注意力机制) 和CCL两个模块,最终通过conficts loss 首尾。
图中(a)主要是用来获取更好的一个句子向量表示,后面用到了一个包的概念,就是该包里面存在相同实体对的不同句子(当然这个包里很可能包含噪音数据),那么再训练过程中,一个批次中同样存在多个包,那么怎么更好的得到包的表示呢,图(b)就主要说了怎么更好的得到包的表示,分别通过上面的NetAtt模块和NetMax模块,NetAtt模块感觉是借鉴了刘志远老师的论文,通过对每个句子赋值一个权重
系数,然后把包内所有的句子向量表示按不同的权重求和,最后得到
包的表示,NetMax感觉是借鉴了Zeng的PCNN的文章,通过求最有可能代表该包的句子,以该句子的向量表示作为该包的表示
,最终通过Conficts 算法进行loss计算,如下图所示:
其中,loss 函数如:
最后补充一句:文中感觉仅仅利用Algorithm 1 算法来更新权重是否可以换用一种利用额外的神经网络来控制v的大小,而不是简单的0,1两个值切换,因此作者提出了Small loss trick,但是可能该方法效果不好,作者的实验里就提到了两个关于该结果的值,也没有花费大文章解释,因此这里也不再过多介绍。
到此,本论文方案基本介绍结束,如有错误的地方多多交流,改进的地方多给建议,哈哈,晚安喽!