论文链接
提取码::q0wy

知识图谱综述

摘要

          从知识图谱的定义和内涵进行了说明,对构建知识图谱涉及到的关键技术进行了自底向上的全面解析.

  1. 对知识图谱的定义和内涵进行了说明,并给出了构建知识图谱的技术框架,按照输入的知识素材的抽象程度将其划分为3个层次:信息抽取层,知识融合层和知识加工层.
  2. 分别对每个层次涉及到的关键技术的研究现状进行分类说明,逐步揭示知识图谱技术的奥秘,及其与相关学科领域的关系
  3. 对知识图谱构建技术当前面临的重大挑战和关键问题进行了总结

          根据W3C的解释,语义网络是一张数据构成的网络,语义网络技术向用户提供的是一个查询环境,其核心要义是以图形的方式向用户返回经过加工和推理的知识。而知识图谱技术则是实现智能化语义检索的基础和桥梁。传统搜索引擎技术能够根据用户查询快速排序网页,提高信息检索的效率,然而这种网页检索效率并不意味着用户能够快速准确地获取信息和知识,对于搜索引擎反馈的大量结果,还需要进行人工排查和筛选。随着互联网信息总量的爆炸性增长,这种信息检索方式已经很难满足人们全面掌握信息资源的需求,知识图谱技术的出现为解决信息检索问题提供了新的思路。

1.知识图谱的定义与架构

1.1知识图谱的定义

定义 知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。

          上述定义包含了3层含义:

  1. 知识图谱本身是一个具有属性的实体通过关系链接二乘的网状知识库,从图的角度出发,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边。由此,知识图谱是对物理世界的一种符号表达。
  2. 知识图谱的研究价值在于,它是构建在当前Web基础之上的一层覆盖网络,借助知识图谱,能够在Web网页之上建立概念间的链接关系,从而以最小代价将互联网中积累的信息组织起来,成为可以被利用的知识。
  3. 知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索(想对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人民从人工过滤网页寻找答案的模式中解脱出来。
1.2 知识图谱的架构
1.2.1 知识图谱的逻辑结构

从逻辑上将知识图谱划分为2个层次:数据层和模式层。

  1. 数据层:知识是以事实(fact)为单位存储在图数据库, 实体-关系-实体 或者 实体-属性-属性值。
  2. 模式层:模式层是在数据层之上,是知识图谱的核心。在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理,规则和约束条件的支持能力来规范实体,关系以及实体的类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少。
1.2.2 构建知识图谱所采用的技术框架

知识图谱构建技术总述
          知识图谱的构建技术,按照知识获取的过程分为3个层次:信息抽取,知识融合以及知识加工。同时也是知识图谱更新的过程,如上表所示。知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程,这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代都包含3个阶段:信息抽取,知识融合以及知识加工。

2.知识图谱的构建技术

2.1 信息抽取
2.1.1 实体抽取

          实体抽取,也称为命名实体识别,是指从文本数据集中自动识别出命名实体。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。

2.1.2 关系抽取

          文本预料经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联信息,通过关系将实体联系起来,才能够形成网状的知识结构。研究关系抽取技术的目的,就是解决如何从文本语料中抽取实体间的关系这一基本问题。

2.1.3 属性抽取

          属性抽取的目的是从不同信息源中采集特定实体的属性信息,例如针对某个公众人物,可以从网络公开信息中得到其昵称,生日,国籍,教育背景等信息,属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。

2.2 知识融合

          通过信息抽取,实现了从非结构化和半结构化数据中获取实体,关系以及实体属性信息的目标,然后,这些结果中可能包含大量的荣誉和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合。知识融合包含2部分内容:实体链接和知识合并。通过知识合并,可以消除概念的歧义,剔除冗余和错误概念,从而确保知识的质量。

2.2.1 实体链接

          实体链接是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。实体链接的一般流程是:

  1. 从文本中通过实体抽取得到的实体指称项
  2. 进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之对应表示相同的含义。
  3. 在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。

实体消歧:(entity disambiguation)是专门用于解决同名实体产生歧义问题的技术。在实际语 言环境中,经常会遇到某个实体指称项对应于多个命名实体对象的问题 ,例如“李娜 ”这个名词 (指称项 )可以对应于作为歌手的李娜这个实体,也可以对应于作为网球运动员的李娜这个实体,通过实体消歧,就可以根据当前的语境,准确建立实体链接。
共指消解:(entity resolution)技术主要用于解决多个指称项对应于同一实体对象的问题。例如在一篇新闻稿中,“BarackObama”,“presidentObama”,“thepresident”等指称项可能指向的是同一实体对象,其中的许多代词如“he”,“him”等 ,也可能指向该实 体对象。利用共指消解技术 ,可以将这些指称项关联 (合并)到正确的实体对象。由于该问题在信息检索和自然语言处理等领域具有特殊的重要性 ,吸引了大量的研究努力 ,因此学术界对该问题有多种不同的表述 ,典型的包括:对象对齐 (object alignment)、实体匹配 (entity matching)以及实体同义 (entity synonyms).

2.2.2 知识合并

在构建知识图谱是,可以从第三方知识库产品或已有结构化数据获取知识输入。

2.3 知识加工

          通过信息抽取,可以从原始语料中提取出实体,关系与属性等知识要素,再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达然后事实本身并不等于知识,要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程,知识加工主要包括三个方面内容:本体构建,知识推理和质量评估。

2.3.1 本体构建

          本体是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系方式给出明确定义。本体的最大特点在于它是共享的,本体中反映的知识是一种明确定义的共识。本体是统同一领域内的不同主体之间进行交流的语义基础。本体是树状结构,相邻层次的节点之间具有严格的“IsA”关系。
本体可以采用人工编辑的方式手动构建 (借助本体编辑软件 ),也可以采用计算机辅 助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。数据驱动的自动化本体构建的过程包含3个阶段:

  1. 实体并列关系相似度计算
  2. 实体上下位关系抽取
  3. 本体的生成。
2.3.2 知识推理

          知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。知识推理是知识图谱 构建的重要手段和关键环节,通过知识推理,能够从现有知识中发现新的知识。例如已知(乾隆,父亲,雍正)和(雍正,父亲,康熙),可以得到 (乾隆,祖父,康熙)或 (康熙,孙子,乾隆)。知识推理的对象并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。例 如已知某实体的生日属性,可以通过推理得到该实体的年龄属性。根据本体库中的概念继承关系,也可以进行概念推理,例如已知(老虎,科 ,猫科)和(猫科,目,食肉目),可以推出 (老虎,目,食肉目)。
知识推理方法可以分为两大类:基于逻辑的推理和基于图的推理。

  1. 基于逻辑的推理主要包括一阶谓词推理,描述逻辑,以及基于规则的推理。
  2. 基于图的推理方法主要基于神经网络模型或者Path Ranking算法。
2.3.3 知识评估

          质量评估也是知识库构建技术的重要组成部分。

2.4 知识更新

          知识图谱的内容更新有两种方式:数据驱动下的全面更新和增量更新。

相关文章:

  • 2021-11-25
  • 2022-01-19
  • 2021-09-04
  • 2022-01-10
  • 2021-11-08
  • 2021-12-14
  • 2021-07-09
  • 2021-06-06
猜你喜欢
  • 2021-11-20
  • 2021-11-16
  • 2021-11-06
  • 2021-11-28
  • 2021-10-21
  • 2021-07-31
  • 2021-08-03
相关资源
相似解决方案