项目开发文档
项目流程
采用自顶向下的构建方式,先确定知识图谱的数据模型,再根据模型去填充具体数据,最终形成知识图谱。
数据来源
现阶段是使用爬虫直接获取结构化的数据
如 消化内科科 —> 胃炎
等直接使用 xpath 获取实体和关系后续可能要对半结构化(mongo)或者非结构化(html)的数据进行识别抽取
知识抽取
获取可信度较高的网站的数据
使用爬虫爬取 医院、医生、科室、疾病、症状、药品等实体信息,实体之间的关系
知识融合
知识抽取工作获得的三元组往往有一定程度的错误信息
因此会有被错误识别的实体或被错误分类的关系,因此为了提高知识图谱的置信度,需要对其进行处理
1、实体消歧
多样性——同一实体在文本中会有不同的指称。两个不一样的名字都是指向同一个实体
例如:华中医院、华中市第一医院、都指同一个医院
歧义性——相同的实体指称在不同的上下文中可以指不同的实体。疾病和症状名字一致但代表不同的实体
例如:迈克尔·乔丹指美国篮球运动员、爱尔兰政治家等
2、知识合并
往往自主建立的知识体系相对孤立,信息量有限。为了使自主构建的知识体系可以与网络现有的知识库相呼应,需要对知识进行合并,可以将以构建的知识体系以图结构存储在图形数据库中,通过实体消歧进行合并,也可以将知识体系以关系型存储在关系数据库中,并通过数据库技术进行合并。知识合并是扩大自主学习构建知识库的重要步骤。
数据库的数据结构
1、了解数据库的理论知识
2、大概的数据结构
![]()