1. 动机与贡献
1.1. 动机
- 知识图谱的特征有许多,包括结构信息、实体属性、实体名称及描述等。目前的实体对齐方法仅仅只利用了其中部分特征,没有将这些特征全部利用起来。将所有特征有效利用起来能够提高模型的准确率和稳定性。
- 对齐任务往往需要种子实体对作为正样本,但是种子实体对的获取成本高导致其数量少。事实上,从多种特征中学习实体的嵌入能够自动补货对齐特征并且减轻对种子实体对的依赖。
1.2. 贡献
从以上两个动机出发,作者提出MultiKE方法,即多视图知识图谱实体对齐方法。该方法将实体的特征分成三个部分,每一个部分称为视图,分别建立表示学习模型,多个视图互补。将多个视图的实体嵌入充分联合起来以提高实体对齐模型的性能。主要贡献点如下:
- 基于知识图谱实体的名称、关系、属性特征分别建立了三个表示视图,对于每个视图分别建立模型以学习实体的嵌入。
- 对于实体对齐,分别在实体级和关系级和属性级设计了两种跨kg的识别推理方法,以保持和增强不同KG之间的实体对齐。
- 提出了三种不同的策略来组合多个视图的实体嵌入。最后,我们通过组合嵌入找到对齐实体。
- 在两个真实数据集上的实验表明,MultiKE在很大程度上优于现有的基于嵌入的实体对齐方法。所选择的视图、跨KG推理和组合策略都有助于提升模型性能。MultiKE在无监督实体对齐方面也取得了良好的效果,可与传统的实体对齐方法较量。
2. 多视图知识图谱嵌入
2.1. 符号及问题定义
文章中的符号与问题定义(符号较多懒得手打了)如图1所示:
2.2. 文本嵌入
不失一般性,设表示n个记号(token)的文本,表示文本的第个记号。表示查询函数根据文本查询嵌入,嵌入维度(向量长度)为,由于文本的记号可能为词语或者字符,的计算方法需要分情况讨论,其公式如下:
其中表示词汇嵌入查询函数,可以查询得到预训练好的词向量;表示字符查询函数,字符向量需要使用与中的字符训练,训练方法为Skip-Gram模型。文本的嵌入可以表示为如下公式:
其中encode(·)返回输入的压缩表示;表示连接操作;n设定为5,文本多出的记号将会被截去,不足的记号用占位符补充。
2.2. 名字视图嵌入
名字视图嵌入利用文本嵌入方法,从实体名字方面对实体进行嵌入,公式如下:
其中表示实体的rdf字符串,表示从实体rdf字符串中获取名字并转换成公式(2)中输入形式的函数,上标表示名字视图,表示关系视图,表示属性视图。知识图谱的名字嵌入用符号表示,即名字视图中实体嵌入空间。
2.3. 关系视图嵌入
关系视图嵌入从知识图谱的结构信息(实体关系三元组)出发,对知识图谱的实体和关系进行嵌入。给定关系三元组,、、分别代表头实体、关系、尾实体,该三元组为知识图谱中真实三元组的可能性得分定义如下:
其中表示曼哈顿距离或者欧几里得距离。根据公司(4)定义三元组为知识图谱中三元组的概率函数:
其中表示关系视图的实体嵌入空间,为指示函数,当(h,r,t)为知识图谱中的三元组时等于1,否则为0。定义公式(6)中的损失函数对进行参数优化:
其中,即与的三元组的并集;表示与中替换了头实体或者尾实体的三元组的并集,即负样本的并集。
2.4. 属性视图嵌入
属性视图嵌入从知识图谱的属性信息(实体属性三元组)出发,对知识图谱的实体进行嵌入。利用卷积神经网络(CNN)从属性名称和属性值中提取特征,其步骤为:
- 使用2.1节中的文本嵌入方法,对属性名称和属性值进行嵌入(得到两个长度为d的向量)。
- 将属性名嵌入与属性值嵌入拼接在一起,得到形状为的矩阵。
- 使用卷积神经网络对进行非线性映射,得到的结果为实体的属性视图嵌入(向量)。
其中卷积神经网络可以用如下公式定义:
其中表示**函数;表示将输入转换成向量形式的函数;表示形状为的卷积核;为全连接层参数。
给定属性三元组,我们定义以下分数函数来衡量其合理性:
在此基础上,头实体嵌入值应该接近它的属性和属性值的卷积结果。定义如下对数损失函数来优化该目标:
其中表示KGa与KGb中属性三元组的并集。这里没有使用负样本,因为我们发现它不会对实体对齐带来显著的改进。