ACL-2020《KinGDOM:Knowledge-Guided DOMain Adaptation for Sentiment Analysis》阅读笔记
今天讲一篇发表在ACL2020上的文章,题目是《一种用于情感分析的知识导向领域适应框架KinGDOM》,本文作者通过引入ConceptNet提供特定领域和一般领域的背景概念来丰富语义文档,并基于领域对抗框架提出了一种跨领域的情感分析新方法。
1.Motivation
本文的动机可以分为以下几个方面。
首先情感分析是一项非常经典的NLP任务,然而训练集,评估及和测试集分布的不均衡导致大多是情感分析模型无法有效的部署 ,而迁移学习中的狂领域语义分析方法被证明可以解决这种问题。跨领域的情感分析方法主要有学习特定领域的情感词法,基于共现关系以及领域对抗学习。论文框架是基于Ganin等人提出的领域对抗性神经网络(DANN)作为主要框架。
此外,利用外部知识库(KBs)来增强神经网络的性能在一系列的NLP应用中显示出了优势。但是,将知识图谱纳入领域适应框架的工作却很少,领域适应框架是指训练能够在多个领域可靠地进行推理的模型,作者认为把常识性的知识图谱引入领域适应框架有多种好处:
(1)知识图谱可以帮助文本建立在真实的实体、事实知识和常识概念的基础上。常识性的知识图谱为文本提供了丰富的背景概念来源,通过特定领域和一般领域的概念,可以增强一段文本的语义。
对于跨领域的情感分析任务,不同领域之间相同词汇的极性可能有所不同.例如“heavy”对于重型卡车来讲是positive的单词,但是对于智能手机而言可能是一个negative的词汇。仅从数据是很难区别不同领域下相同词汇的情感极性的(尤其是在无监督的领域下)。
(2)另外,不同的领域之间的词汇经常通过潜在语义概念共享关系。ConceptNet可以用一些常识性的词汇搭建桥梁,使得当前目标领域的词汇连接到其它领域的一般概念中去,从而帮助模型更好地理解当前领域词汇的含义。
例如,对于例句“The software came with decent wallpaper/screen savers(该软件附带了不错的屏保)”,其中包含了来自电子信息领域的特定术语“screen saver”和“wallpaper”,ConceptNet通过相关的词汇“design(设计)”将“wallpaper”与图书领域的词汇“sketch(草图)”链接起来,从而用图书领域的词汇辅助模型理解当前电子信息领域的词汇。在文中我们将当前需要被预测的领域称为目标域,由ConceptNet链接辅助预测的领域称为源域。
2.Contribution
于是,本文提出了一种使用外部知识库(ConceptNet)进行无监督域适应的领域对抗框架KinGDOM。该框架考虑了无监督的域适应,可以从源域和目标域分别获得带标签的实例和未标记的实例,目标是训练一个能够在目标域上获得良好分类性能的分类器。
模型最后在Amazon-reviews数据集上进行了测试,验证了外部知识可以帮助跨领域的情感分类任务更好的完成。
3.Model
本文的模型如图所示。模型的输入是包含所有领域常识性知识的ConceptNet子图和一系列待预测的文本,最终的输出是文本分类的预测结果。模型的工作流程主要分为两步:
第一步,训练ConceptNet的一个领域聚合的子图。具体来讲,首先我们将包含所有信息的ConceptNet当作输入,之后提取数据集中所有领域文档中特有的名词、形容词和副词并组成一个种子词集合,并利用这个种子词集合对输入的ConceptNet进行筛选,得到筛选过后包含数据集中相关领域节点的ConceptNet子图,之后利用图卷积神经网络R-GCN学习领域子图的概念嵌入,并且得到一个图形自动编码器。
第二步,在训练得到图形自动编码器之后,作者从训练好的ConceptNet子图中为数据集中的每个实例提取和汇集文档相关的特征,然后将相应的图特征向量和文本向量一起输入到领域对抗神经网络(DANN)中用于对抗性训练。
最后为了进一步加强域的不变性,作者还引入了一个共享的自动编码器来重建图型的特征。
Step 1a) 领域聚合的常识性图构造
在获得领聚合的ConceptNet子图这一步,作者将包含点集、边集和关系集的ConceptNet图G作为输入,再从数据集中所有域的训练文档中,提取所有独特的名词、形容词和副词的集合。这些提取出来的种子词用来将ConceptNet过滤成子图。具体地说,我们从G中提取所有距离这些种子词1以内的三元组,生成一个子图G ' = (V ',E ',R '),其中大约有356k节点和900k条边。因此,此子图将包含跨所有领域的概念以及概念间链接。从每个领域的角度观察子图G’都可以得到如表1所示的领域内的前十个关系。
Step 1b)知识图谱预训练
为了在后续任务中利用筛选得到的子图G’,我们首先要计算子图的节点表示。作者人通过训练图形编码器来执行连接预测。该模型将子图G’中边集合的一组不完整的边作为输入,然后计算给定三元组的关系分数,判断这些边在子图边集合中出现的可能性。
Encoder Module.本文作者重用R-GCN作为图编码器,R-GCN的优势在于:可以在多次推理的步骤中从给定概念的局部邻域中积累关系信息。基于领域的卷积特征变换过程始终确保不同领域的概念通过底层概念链接,并且相互影响以创建丰富的领域聚合的特征向量。
本文的编码器模块有两层相互堆叠的GCN编码器组成,初始的概念特征向量gi通过随机初始化得到,之后利用两次图卷积神经网络对gi进行处理,转换为节点的领域聚合特征向量hi,转换的具体过程如下:
第一个公式是卷积操作的标准公式,其中xi表示输入向量,老师晃动窗口的大小,Nri表示再关系r下与节点i相邻的节点的信息表示,其中cir是归一化的常数,它等于信息表示Nri的模ci,r= ∣Nri∣,σ是一个**函数,Wr和Wo是可变换的学习参数。通过两次卷积操作可以得到最终的节点领域聚合特征向量hi.通过这种编码方法可以使得ConceptNet上的每个节点都聚合其邻居节点的信息。
Decoder Module.Decoder部分作者使用了2014年一篇文章的评分函数计算方法,对于一个给定的三元组(ci,r,cj),解码过后的得分如下:
其中σ为逻辑函数;概念ci,cj的GCN编码特征向量。每个关系r ∈ R也与一个对角矩阵Rr∈ Rd×d相关联。
Training.本文的作者利用负采样的方法训练图形自动编码器模型。对于包含正样本边集合的在三元组,作者通过修改三元组的概念或者关系随机破坏正样本来得到与负样本数量相匹配的样本集合,最终创建的样本集合用T来表示。之后,分类任务就被是定位正/负三元组之间的二分类问题。其中模型的损失用标准交叉熵随时来描述。
一旦我们训练得到了图形自动编码器模型,可以确保目标领域的特定概念可以通过一般领域的概念和领域间的概念来解释。
Step 2a) 常识图特征提取
训练好的图形自动编码器模型可用于特征提取。我们现在描述为特定文档x提取文档特定常识图特征的方法:
- 第一步是提取文档中所有唯一的名词、形容词和副词的集合,称为W;
- 接下来,我们从G’中提取一个子图,在这个子图中,我们取所有的三元组,它们的构成节点要么在W中,要么在W中任何单词的半径1附近。得到的子图称之为G’w
- 然后,利用之前训练好的图形自动编码器模型的Encoder对子图G’w编码,得到子图中每个节点j的唯一编码hj
- 最后对子图G’w中所有唯一节点的特征向量hj求平均,得到文本X的常识图特征向量Xcg。
由于大多数文档的种子词集合W中都有特定领域和一般领域的单词,所以最后得到的常识图特征向量Xcg会包含部分一般领域的常识信息,这些信息能够在领域适应的过程中有所帮助。
Step 2b) 领域对抗训练
领域对抗训练阶段,作者将从子图G’w中得到的文本常识性图特征向量和文本预训练word embedding 作为输入。利用图特征编码器M’对子图中得到的图特征向量编码,得到图特征向量Zgrp。利用领域对抗神经网络(DANN)对文本的word embedding进行编码得到向量Zdann,并将得到的两个向量串联,获得最终的特征向量表示[Zdann;Zgrp]。
之后任务分类器C和领域鉴别器Dadv将最终的特征向量表示[Zdann;Zgrp]作为输入,得到最终的分类结果和分类过程产生的损失Lcls。域鉴别器是域对抗神经网络中的一部分,主要作用是区分源实例和目标实例,在训练过程中,会产生一个损失LadvD。DANN域对抗神经网络的核心思想就是通过学习域鉴别器无法区分的向量表示从而缩小跨领域分类的结果与真实标签之间的差距。
为了进一步增强图特征向量Zgrp的域不变性,作者将这个图特征向量视作知识图谱预训练部分图特征自动编码器中的隐藏层向量,并且为此添加了一个具有重构损失的共享解码器Drecon,公式所示的是共享解码器训练过程中产生的损失,共享解码器的参数是θr。这种领域对抗训练的最终优化目标是基于极大极小目标的优化确定的,其中λ和γ是超参数。
4.Experiment
实验部分,本文使用的数据集Amazon-reviews由亚马逊产品评论组成,涵盖四个领域:书籍、光盘、电子产品和厨房电器。每篇评论都有一个评级,表明它的情感极性。评分高达3星的评论被认为包含负面情绪,4星或5星被认为是正面情绪。数据集遵循两个标签之间的平衡分布,为每个域产生2k个未标记的训练实例。测试包含3k - 6k样品以供评估。
实验结果部分,作者展示了不同源域作为目标域分类辅助的实验结果,其中B:书籍,D: DVD,E:电子,K:厨房领域。可以看到,在引入ConceptNet之后,域对抗神经网络在分类结果上有了一定提高。