【论文读后感】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》

《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised Relation Extraction 》

Abstract

和往常的远程监督关系抽取差不多，首先说下远程监督的优点，可以省去标注人力物力；缺点就是按照外部知识来进行标注，容易导致标注的关系是错误的，因此作者提出了CCL(collaborative curriculum learning）来解决远程监督产生的噪音数据，用到了两个selection models来降低噪音数据产生的影响，其中用到的loss函数分别为conflicts loss（文中对该loss进行了大量的实验）或者small loss，最终实验效果达到了sota（当前最好的效果），同时证实了针对远程监督的关系抽取，该模型确实具有降噪的作用。

Introduction

该部分主要讲了远程监督的关系抽取定义、优缺点和主要的贡献，主要贡献有三点：

1.第一次提出了CCL(collaborative curriculum learning）的概念。

2.不是像以往那样先想法分离噪音数据，然后再训练模型预测，该模型一次训练，实现简单。

3.利用自注意力机制的CNNs提升效果。

4.实验效果达到了SOTA

Related Work

该部分主要讲了相关的远程关系抽取的方法，这里不多介绍。

Methodology

首先输入：

和以往一样，word Embedding+positionEmbedding

【论文读后感】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》

中间分表包括：zeng的piece-wise pooling CNN（改进，加了个自注意力机制）和CCL两个模块，最终通过conficts loss 首尾。

【论文读后感】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》

图中（a）主要是用来获取更好的一个句子向量表示【论文读后感】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》，后面用到了一个包的概念，就是该包里面存在相同实体对的不同句子（当然这个包里很可能包含噪音数据），那么再训练过程中，一个批次中同样存在多个包，那么怎么更好的得到包的表示呢，图（b）就主要说了怎么更好的得到包的表示，分别通过上面的NetAtt模块和NetMax模块，NetAtt模块感觉是借鉴了刘志远老师的论文，通过对每个句子赋值一个权重【论文读后感】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》系数，然后把包内所有的句子向量表示按不同的权重求和，最后得到包的表示，NetMax感觉是借鉴了Zeng的PCNN的文章，通过求最有可能代表该包的句子，以该句子的向量表示作为该包的表示【论文读后感】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》，最终通过Conficts 算法进行loss计算，如下图所示：

【论文读后感】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》

其中，loss 函数如：【论文读后感】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》

最后补充一句：文中感觉仅仅利用Algorithm 1 算法来更新权重是否可以换用一种利用额外的神经网络来控制v的大小，而不是简单的0，1两个值切换，因此作者提出了Small loss trick，但是可能该方法效果不好，作者的实验里就提到了两个关于该结果的值，也没有花费大文章解释，因此这里也不再过多介绍。

到此，本论文方案基本介绍结束，如有错误的地方多多交流，改进的地方多给建议，哈哈，晚安喽！