Error detection in Knowledge Graphs: Path Ranking, Embeddings or both?
- 错误的三元组本质上是对象s与对象o(两者均为E)之间的错误边缘,关系r∈R将它们连接在一起。
- PaTyBRED:PRA启发式算法,使用路径作为特征,将路径定义为关系r1→r2→...→rn的序列。
- TransE:给定三元组(s,r,o)是正确的,则主题s和关系r可以与对象o连接,且误差很小,这意味着s + r≈o。递归地最小化使用上述能量函数和负采样进行训练的成对评分函数
- Confidence-aware KRL (CKRL):认知感知的KRL框架,在TransE模型的成对损失函数中注入了三元组置信度C(s,r,o),旨在学习更好的知识表示。
- PTransE:CKRL方法的前身,它使用路径来引导嵌入,其方式与CKRL不同。
- 路径排序引导嵌入(PRGE):混合方法。
PPT
知识图中的错误检测:路径排名,嵌入还是两者?
Problem Formulation
首先,将知识图G定义为一组三元组。 每个三元组都遵循(s,r,o)的形式,其中(s,o)∈E是实体,而r∈R是绑定它们的关系。
假设知识图G也包含一定比例的噪声N%,这表示G中的三元组中有N%是错误的。
这些错误的三元组本质上是对象s与对象o(两者均为E)之间的错误边缘,关系r∈R将它们连接在一起。
因此,论文的目标是找到一种方法来查明G中的这些错误。
Methods Employed
PRA启发式算法,在错误检测的上下文中使用此,
该算法的概念是将这些路径用作确定给定三元组是否为噪声的特征。
PaTyBRED使用路径作为特征,将路径定义为关系r1→r2→...→rn的序列。
如果存在实体x1,x2,...,xn-1,则对象s和对象o可以通过路径P(s,o)连接,使得P(s,o)= r1(s,x1)→ ...→ri(xi-1,xi)→...→rn(xn-1,o)。
修剪路径后,将填充NR功能表,其中NR是关系数。
在使用NR个不同的分类器(每个关系一个)之后,为每个三元组确定一个值[0-1]的置信度分数,而表示噪声的分数较低。
给定三元组(s,r,o)是正确的,则主题s和关系r可以与对象o连接,且误差很小,这意味着s + r≈o。
TransE递归地最小化使用上述能量函数和负采样进行训练的成对评分函数
其中l1 | 2表示L1范数或L2规范。主体,关系和客体之间的拟合度越高,能量函数的值越小。实体和关系的嵌入是通过培训学习的。
其中E + = E(s,r,o)是来自数据集S +的正三元组,E- = E(s`,r,o`)是通过随机采样生成的来自负集S`的负三元组的能量函数得分,而γ是余量的超参数。
[x] +表示x的正部分,
因为此损失函数为最大余量。
认知感知的KRL框架,在TransE模型的成对损失函数中注入了三元组置信度C(s,r,o),旨在学习更好的知识表示。
三元组置信度C( s,r,o)度量将模型的能力最高保持三倍,当C(s,r,o)较大时,损失函数受特定三元组的影响很大,而不是分数较小的三元组。
C(s,r,o)的值通过局部三元组置信度(LT)度量获取局部特征,并通过先验路径置信度(PP)和自适应路径置信度(AP)捕获全局特征。
在评估中,除CKRL外,还使用了PTransE方法,这是CKRL方法的前身,它使用路径来引导嵌入,其方式与CKRL不同。
提出了路径排序引导嵌入(PRGE)的这种混合方法。
PRGE方法概述。
路径置信算法产生置信度: 检索三元组之间的路径,训练路径特征分类器,产生三元组的路径排名分数
通过置信度分数指导嵌入: 嵌入能量函数中的路径排名得分,产生图形嵌入
从CKRL损失函数可以明显看出,TransE能量函数和CKRL置信度度量处于同一数量级。置信度分数值将在训练过程中影响每个主题,对象和关系嵌入的程度。
利用置信度评分和成对的最大利润损失函数(2)在训练嵌入过程中发挥的作用。
将CKRL的三元组置信度C(s,r,o)度量替换为路径排序方法的置信度度量P(s,r,o),同时添加一个参数λ以缩放路径排名值的重要性.
Experiments
WN18:WN18数据集是Wordnet的子集,并被用作多项研究的基准,Wordnet是一个英语数据库,可以看作是字典,也可以是同义词库。
FB15k:Freebase的子图,Freebase是一个大规模的协作知识库,其中包含有关现实世界的一般事实。
为了证明在实际应用中对错误检测方法的需求,尝试了在iASiS项目的背景下创建的知识图谱。为了满足项目的需求,使用自动工具从PubMed1中与痴呆(Dementia)症相关的出版物摘要中提取了生物医学实体之间的关系。
需要KG中存在噪声。
生成了具有不同百分比噪声水平的新数据集,以模拟自动构造的现实世界知识图。
通过破坏s或o来产生一个嘈杂的噪声。
对于FB15K知识图,其中噪声的生成受到限制,因为新的主题s`或对象o`应该以相同的关系r出现在数据集中。此约束集中于针对任何方法生成更难,更混乱的噪声。
相反,在WN18和痴呆症KGs上进行了随机抽样,没有任何限制,以比较和对比不同噪声类型的不同方法和数据集。
出于训练目的,所有错误都被标记为正值。
这意味着对方法的评估将基于它们对每个KG发现的隐藏错误的有效性。
评估协议。
基于此能量函数得分的所有三元组。 三元组的能量值的值越小,则三元组的有效性越高。
希望错误的三元组比初始正确的三元组具有更大的价值。
为了衡量这一点,使用滤波后的平均排名(fMR)和滤波后的平均倒数排名(fMRR)。
在将能量函数得分在[0-1]区间内归一化之后,使用ROC曲线下面积(AUC)进一步检查算法将噪声分类为错误的程度。
值接近0表示正确的三元组,而值接近1表示错误的三元组。对于fMR,fMRR和AUC的值越低越好。
根据每个数据库的比率估算的错误数
关于PaTyBRED,作者强调,最大路径长度(从主体到对象所需的最大跳数)设置为2。每长度的最大路径数设置为1000。
在所有嵌入方法中,使用d = 50作为嵌入尺寸。
由于CKRL和TransE使用此特定值,因此将裕度γ设置为1.0,并使用值{0.001,0.01,0.05}测试学习率。
尽早停止使用以确定最佳模型。
关于PRGE方法的标度值λ,使用λ= 5,得出在搜寻一小部分可能值之后,在所有资料集上取得最佳结果。
错误检测实验。
1)WN18数据集:表3可以看出,提出的PRGE规模化方法在所有其他方法上的表现均优于其他方法
错误检测实验。
2)FB15k数据集:在错误检测中,PaTyBRED的性能比几乎任何基本的嵌入方法都要好,这表明此处潜在的主要因素是数据集大小(请参见表1)和不同的错误推算方法。但是,PRGE缩放方法在fMRR指标上表现更好,表明它可以将明显的错误三元组与其他三元组更好地分开。此外,PRGE缩放方法的性能要优于所有其他基于嵌入的方法。
错误检测实验。
3)痴呆症数据集:首先,如表1和5.1所示,鉴于可用实体和关系的数量,知识图非常稀疏。此外,由于该数据集在创建过程中会自动进行提取,因此甚至在噪声插补过程之前也存在噪声。这样,实际噪声水平远高于其他数据集。因此,鉴于连接失真和实际噪声水平高得多,预计痴呆症数据集将提出更具挑战性的错误检测任务。
从表5中可以看出,可以发现对于所有方法来说,错误检测都是非常困难的,而与方法和方法无关。
尽管PaTyBRED在排名指标上稍好一些,但PRGE缩放方法获得了更好的AUC评分,这表明,在比较实际和嘈杂的三元组时,平均而言,它可以比其他模型表现更好。
随着噪声比的增加,它也可以更好地扩展,这在WN18数据集中也可以看到。在N3数据集中,PRGE可以比每种方法获得更好的fMR评分,这表明在存在大量噪声的情况下(大多数自动生成的KG几乎都是这种情况),它可以比最新方法更好。
4)噪声的影响:当噪声水平从N1上升到N3时,无论所有表中的数据集如何,所有模型的性能都会下降。但是,PRGE的模型最健壮,尤其是与其他嵌入方法相比时,其性能波动要小得多。
5)PRGE缩放效果:λ缩放的PRGE方法比未缩放的方法效果更好。
6)PTransE性能:PTransE的性能都比TransE差。
两个主要优点:•模块化:所提出的PRGE方法与潜在的能量函数和三重评分机制无关。
•鲁棒的嵌入:与PRA方法相反,后者仅对每个三元组提供一个置信度分数,而PRGE方法将生成由该置信度分数训练和指导的嵌入。
三元组分类实验:证明抗噪嵌入在下游任务中的有用性,为了分类三元组是否有效,针对每个关系r引入了一个阈值τr。
随着噪声比变大,PRGE方法的性能要优于其他方法。
PRGE缩放方法始终优于CKRL和PTransEonall噪声,表明使用路径排名分数来训练嵌入会产生更好的结果。
在痴呆症数据集上也观察到了同样的情况,在所有噪声水平上,PRGE-Scaled的表现均优于CKRL,PTransE和PRGE。
最终,可以看到,在嵌入的训练过程中,利用PRGE框架合并错误估计分数,实际上对生成噪声鲁棒嵌入的其他下游任务有所帮助。
痴呆症数据集的定性结果
对模型给出的预测进行了定性分析。
进行穿刺以检测知识图中的实际噪声。
首先,如模型所预测的,获取了得分最高的前100个三元组。还从发现这些三元组的出版物中获取了准确的文本摘要。
向三位自然语言处理和生物信息学领域的人类专家介绍了这些三元组以及相应的文本。要求他们在给定相应文本内容的情况下评估三元组的质量,以及提取的信息有多有用。
注释者评估的结果可以在图2中看到。
对于所有注释者,给定上下文,这些三元组中有超过85%似乎是错误的。另一方面,在所有注释器中,得分最低的三元组中只有8%正确。这表明预测的高精度,并使对模型的评分相当确信。
这些示例展示了区分所犯错误类型以及在噪声图中进行此类分析的附加值的重要性。
痴呆症数据集的定性结果。
错误类别中得分最低的三元组,每个类别中有两个,以及错误的类型和从中提取的初始文本。