项目开发文档

项目流程

采用自顶向下的构建方式，先确定知识图谱的数据模型，再根据模型去填充具体数据，最终形成知识图谱。

项目开发文档

数据来源

现阶段是使用爬虫直接获取结构化的数据
如消化内科科 —> 胃炎
等直接使用 xpath 获取实体和关系

后续可能要对半结构化(mongo)或者非结构化(html)的数据进行识别抽取

相关资料

知识抽取

获取可信度较高的网站的数据

使用爬虫爬取医院、医生、科室、疾病、症状、药品等实体信息，实体之间的关系

知识融合

知识抽取工作获得的三元组往往有一定程度的错误信息

因此会有被错误识别的实体或被错误分类的关系，因此为了提高知识图谱的置信度，需要对其进行处理

1、实体消歧

多样性——同一实体在文本中会有不同的指称。两个不一样的名字都是指向同一个实体

例如：华中医院、华中市第一医院、都指同一个医院

歧义性——相同的实体指称在不同的上下文中可以指不同的实体。疾病和症状名字一致但代表不同的实体

例如：迈克尔·乔丹指美国篮球运动员、爱尔兰政治家等

解决方法

2、知识合并

往往自主建立的知识体系相对孤立，信息量有限。为了使自主构建的知识体系可以与网络现有的知识库相呼应，需要对知识进行合并，可以将以构建的知识体系以图结构存储在图形数据库中，通过实体消歧进行合并，也可以将知识体系以关系型存储在关系数据库中，并通过数据库技术进行合并。知识合并是扩大自主学习构建知识库的重要步骤。

数据库的数据结构

1、了解数据库的理论知识

关于数据库的理论知识

关于关系单双向的问题

2、大概的数据结构