论文理解—— DisenE: Disentangling Knowledge Graph Embeddings

COLING 2020 DisenE: Disentangling Knowledge Graph Embeddings

链接： https://arxiv.org/abs/2010.14730
Github: https://github.com/KXY-PUBLIC/DisenE

研究背景：

近年来，学术界和工业界已经提出了大量的知识图谱表示学习的模型用于链接预测等下游任务，主要是将KG中的实体和关系用低维向量或矩阵来表示。而具有可解释性的知识图谱表示可以更好的帮助研究人员分析当前的模型，并给予更多的信任。然而，现有的大多数知识图谱表示学习方法忽略了实体和关系表示可解释的必要性。特别是黑盒结构的特性使得很难理解学习到的嵌入表示，这在很大程度上抹杀了KG本身丰富的可解释性。而且现有的技术无法学习解耦合的表示。

为了解决这个问题，我们研究了知识图谱形成背后的因素并提出使用解耦合的方式建模这些语义信息，这种建模方式可以明确地发现实体的哪个部分与给定的关系更相关，并且可以对实体的表示进行一定的解释。在以用户为实体组成的KG中，实体应该携带丰富的信息，比如一个用户会有多种属性信息，而这些信息可以被压缩成多个组件。如图所示，实体“David Beckham”可能包含几个组件，如“个人特征”、“家庭”、“工作”、“地点”等。对于关系 “country”或者 “live_city”，应该关注“David Beckham”的’‘地点"相关的组件信息；而对于关系“team_of"， ‘’ David Beckham"应该更加关注’'工作’相关的组件信息。
论文理解—— DisenE: Disentangling Knowledge Graph Embeddings
在这项工作中，我们提出了一个端到端的框架DisenE来学习解耦合的知识图谱表示学习。具体来说，DisenE将实体嵌入划分为多个独立组件，并利用注意机制根据给定的关系显式捕获实体的相关组件。为了迫使每个组件独立地反映一个独立的语义方面，我们引入了两个新的正则化项来约束关系的注意力分布。我们提出的框架可以适用于大多数现有的KGE方法，例如基于重构或基于双线性的方法，来提取每个组件下三元组的局部相关特征。

本文的贡献不仅在于设计了一个通用的框架，而且还为解决KGE的可解释性提供了一个新的视角，这对下游任务很重要，但在知识图谱中尚未充分探索。我们从DisenE模型中学习到的可解释性更强的嵌入表示可以潜在地促进调试，这可以进一步提高KGE模型的鲁棒性。因此，我们希望能启发研究者们注意到知识图谱解耦合的意义。

模型设计：

一、问题的形式化定义：

论文所研究的知识图谱可以形式化地表示为G=(E,R),其中E和R分别表示知识图谱的实体集和边集。给定G中的三元组 ( h , r , t ) ⊆ E × R × E {(h,r,t)}⊆E×R×E (h,r,t)⊆E×R×E，我们将它们的嵌入表示为 h \bm{h} h, t ∈ R d \bm{t}\in \mathbb{R}^{d} t∈Rd 和 r ∈ R l \bm{r} \in \mathbb{R}^l r∈Rl，其中d和l表示向量维度。知识图谱表示学习（KGE）模型通常通过在观察到的事实上最大化得分函数 f ( h , r , t ) f(h,r,t) f(h,r,t)来学习实体和关系嵌入，并且得分倾向于为真实三元组打比无效三元组更高的分数。

二、网络结构设计

论文是希望将实体的丰富信息分解为几个组件，并且在不同组件内部学习和实体相关的不同语义知识，因此不同的三元组将在不同的组件内部进行学习。我们将学习一个的解耦合的实体向量表示e，该实体表示由K个独立的分量组成，即 e = [ e 1 , e 2 , . . . , e K ] \bm{e} = [\bm{e}^1, \bm{e}^2,...,\bm{e}^K] e=[e1,e2,...,eK]，其中 e k e^k ek表示实体e的第k个组件部分表示。本模型的总体架构图如下：
论文理解—— DisenE: Disentangling Knowledge Graph Embeddings

对于三元组(h,r,t)，论文使用注意力机制来根据关系r显式的选取实体h和t的相关部分。具体来说，模型首先拼接起头尾实体和关系的嵌入表示，然后通过非线性变换来计算关系 r对头和尾实体嵌入的第k个分量的关注值：

a k = ReLU ( W 1 [ h k ; r ; t k ] ) , a^{k} = \text{ReLU}(\bm{W}_1[\bm{h}^k;\bm{r};\bm{t}^k]), ak=ReLU(W1[hk;r;tk]),
α k = exp ⁡ ( a k ) ∑ j = 1 K exp ⁡ ( a j ) \alpha^{k} = \frac{\exp(a^k)}{\sum_{j=1}^{K}\exp(a^j)} αk=∑j=1Kexp(aj)exp(ak)

其中 W 1 ∈ R 1 × 3 d K \bm{W}_1 \in \mathbb{R}^{1 \times \frac{3d}{K}} W1∈R1×K3d是一个可训练的矩阵，[⋅;⋅]表示拼接操作; a k a^k ak表示某关系对头尾实体的第k个分量的关注情况; α^k是应用归一化操作后获得的相对关注度值。

然后DisenE利用现有的KGE方法提取 h k , r , t k h^k,r,t^k hk,r,tk的局部相关性。现有的KGE模型主要可以分为两类:基于重构的模型和基于双线性模型。论文可以应用在这两类的经典KGE模型上，包括TransE(基于重构的)和ConvKB(基于双线性的):

TransE : o k = [ h k ; r ; t k ] \textbf{TransE}: \bm{o}^k = [\bm{h}^k; \bm{r}; \bm{t}^k] TransE:ok=[hk;r;tk]
ConvKB : o k = ReLU ( Conv ( [ h k ; r ; t k ] ) , \textbf{ConvKB}: \bm{o}^k = \text{ReLU}\big(\text{Conv}([\bm{h}^k; \bm{r}; \bm{t}^k]\big), ConvKB:ok=ReLU(Conv([hk;r;tk]),

其中 Conv ( ⋅ ) \text{Conv}(\cdot) Conv(⋅)表示具有M个滤波器的卷积层， o k ∈ R M d K \bm{o}^k \in \mathbb{R}^{\frac{Md}{K}} ok∈RKMd是第k个分量的输出表示。
最后,我们定义评分函数 f ( h , r , t ) = W 2 ( ∑ k = 1 K α k o k ) f(h, r, t) = \bm{W}_2\left(\sum_{k=1}^{K} \alpha^k \bm{o}^k\right) f(h,r,t)=W2(∑k=1Kαkok)，当我们用TransE时，其中的 W 2 \bm{W}_2 W2就是一个标准化操作,而我们利用ConvKB时， W 2 ∈ R 1 × M d K \bm{W}_2 \in \mathbb{R}^{1\times \frac{Md}{K}} W2∈R1×KMd就是一个可训练的矩阵。

三、训练策略

论文利用软间隔距离损失函数来训练模型:

L t r i p l e = ∑ ( h , r , t ) ∈ G ∪ G ′ log ⁡ ( 1 + exp ⁡ ( y ( h , r , t ) ⋅ f ( h , r , t ) ) ) \mathcal{L}_{triple} = \sum_{(h, r, t) \in G \cup G'} \log\left(1+ \exp\left(y_{(h,r,t)} \cdot f(h, r, t)\right)\right) Ltriple=∑(h,r,t)∈G∪G′log(1+exp(y(h,r,t)⋅f(h,r,t)))

其中G^'表示通过负采样得到的无效的三元组，如果(h,r,t)∈G，则 y ( h , r , t ) = 1 y_{(h, r, t)} = 1 y(h,r,t)=1，否则， y ( h , r , t ) = − 1 y_{(h, r, t)} = -1 y(h,r,t)=−1。

为了鼓励实体嵌入的每个组件能够独立地反映一个单独的语义信息，我们设计了两个新的正则化项来满足：(1)同一个关系会关注不同实体的相同组件部分。具体方式是，对于每一个三元组(h,r,t)∈G，我们其进行采样从而得到N个具有相同关系的三元组集合T(h,r,t)∈G。然后通过最小化它们的KL距离，对这些三元组的解耦合关注度值施加约束。(2)对于同一个关系来说，它关注的组件总数量越少，解耦合的效果就越好。因此我们鼓励每次选择的前m个组件的注意值的总和趋近于1。形式上，两个正则化因子定义为:

L R E L 1 = ∑ ( h , r , t ) ∈ G ∑ ( h ′ , r , t ′ ) ∈ T ( h , r , t ) 1 N D K L ( α ( h , r , t ) , α ( h ′ , r , t ′ ) ) \mathcal{L}_{REL_1} =\sum_{(h,r,t)\in G} \sum_{(h', r, t')\in T(h, r, t)} \frac{1}{N} D_{KL}(\bm{\alpha}(h, r,t),\bm{\alpha}(h',r, t')) LREL1=∑(h,r,t)∈G∑(h′,r,t′)∈T(h,r,t)N1DKL(α(h,r,t),α(h′,r,t′))

L R E L 2 = ∑ ( h , r , t ) ∈ G ( 1 − ∑ i m α i ) \mathcal{L}_{REL_2} = \sum_{(h, r, t) \in G} (1 - \sum_{i}^{m}\bm{\alpha}^i) LREL2=∑(h,r,t)∈G(1−∑imαi)

因此，论文模型的最终损失函数为 L = L t r i p l e + β ⋅ L R E L 1 + η ⋅ L R E L 2 \mathcal{L} = \mathcal{L}_{triple} + \beta \cdot \mathcal{L}_{REL_1} + \eta \cdot \mathcal{L}_{REL_2} L=Ltriple+β⋅LREL1+η⋅LREL2，其中“β”和“η”分别表示两个正则化项的权重。

实验：

为了验证DisenE的效果，我们在两个通用的数据集上进行了实验分析，结果如下：
论文理解—— DisenE: Disentangling Knowledge Graph Embeddings

我们利用链接预测任务对比了现有的主流KGE技术,包括基于重建的模型(TransE[1] , RotatE[2], ConvE[3])和基于双线性的模型 (ComplEx[6], ConvKB[4], TuckER[13], KBGAT[9])。从表1中，我们发现:(1)在两个实验数据集上，DisenE都取得了有竞争力的结果，特别是比两个紧密相关的模型TransE和ConvKB做得更好。在FB15k-237数据集上，DisenE (ConvKB)在几乎所有指标上都有提升，这验证了该方法在链接预测任务中的有效性。(2)可以看出DisenE (ConvKB)在FB15k-237上的结果最好，在WN18RR上的MR得分最好，说明在通过解耦合的方式，可以让真实三元组的排名总体上都比较高。(3)与WN18RR相比，FB15k-237的改善更为显著。这是因为在关系较多的KG中，实体包含多个语义成分的现象更为显著。

为了探究DisenE的可解释性，即实体嵌入是否真的根据关系被解耦合了，我们可视化了实体和关系的关注度情况，两个图分别为：
论文理解—— DisenE: Disentangling Knowledge Graph Embeddings

在左图中，我们可视化了一个关系对不同实体的K个分量的关注值，其中y坐标是随机采样的一些头部实体，这些实体都与该关系出现在同一个三元组中。图中表明相同的关系倾向于关注不同实体的相同部分。通过对注意力分布的分析，我们发现，以第一成分为主的关系一般与体育赛事有关，这就导致了男性的“性别”关系也以会关注于第一成分。

此外，为了验证学习到的嵌入满足了不同关系关注实体的不同部分的直觉，我们在右图中绘制实体Britain多个组件上的注意值，其中y坐标为与“Britain”出现在相同三元组中的关系样本。我们可以观察到语义相似的关系具有相似的注意值分布。例如,关系“gdp nominal”, “gdp real”, “dated money”, “ppp dollars”都与经济有关，关系“olympic medal”, “olympics”, “medal won”都与奥运会比赛有关。这些结果表明，本模型学习的解耦合表示具有一定的可解释性。

参考文献

[1] Bordes, Antoine, et al. “Translating embeddings for modeling multi-relational data.” Advances in neural information processing systems. 2013.
[2] Sun, Zhiqing, et al. “Rotate: Knowledge graph embedding by relational rotation in complex space.” arXiv preprint arXiv:1902.10197 (2019).
[3] Dettmers, Tim, et al. “Convolutional 2d knowledge graph embeddings.” Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
[4] Nguyen, Dai Quoc, et al. “A novel embedding model for knowledge base completion based on convolutional neural network.” arXiv preprint arXiv:1712.02121 (2017).
[5] Yang, Bishan, et al. “Embedding entities and relations for learning and inference in knowledge bases.” arXiv preprint arXiv:1412.6575 (2014).
[6] Trouillon, Théo, et al. “Complex embeddings for simple link prediction.” International Conference on Machine Learning (ICML), 2016.
[7] Kazemi, Seyed Mehran, and David Poole. “Simple embedding for link prediction in knowledge graphs.” Advances in neural information processing systems. 2018.
[8] Vu, Thanh, et al. “A capsule network-based embedding model for knowledge graph completion and search personalization.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019.
[9] Nathani, Deepak, et al. “Learning attention-based embeddings for relation prediction in knowledge graphs.” arXiv preprint arXiv:1906.01195 (2019).
[10] Wang, Zhen, et al. “Knowledge graph embedding by translating on hyperplanes.” Aaai. Vol. 14. No. 2014. 2014.
[11] Lin, Yankai, et al. “Learning entity and relation embeddings for knowledge graph completion.” Twenty-ninth AAAI conference on artificial intelligence. 2015.
[12] Higgins, Irina, et al. “beta-vae: Learning basic visual concepts with a constrained variational framework.” (2016).
[13] Balažević, Ivana, Carl Allen, and Timothy M. Hospedales. “Tucker: Tensor factorization for knowledge graph completion.” arXiv preprint arXiv:1901.09590 (2019).