文章链接

知网链接

使用理由

引导性的实现一个医疗知识图谱系统。

文章内容整理

条件随机场(CRF)和医疗固有规则推导的CT文本命名实体识别的方法。

预处理 -> 属性提取 -> 即时结构化


分词
基于字典、基于统计、基于理解

命名体识别
词的边界识别(难点)
基于规则和字典、基于统计

基于统计的方法主要包括:隐马尔可夫模型、最大熵、支持向量机和条件随机场
采用两者相结合来做处理


命名体识别的问题本质可以看做是序列标注问题
使用到的工具CRF++(用作命名体识别)
步骤:
确认标签体系、确认特征模板、预处理、训练

训练的数据文件和特征模板文件AND 测试文件
实体类别

类别 标注 样例
器官部位 O 脾脏,腹腔等
疾病 D 腹水,结实,积液等
状态 S 片团状 ,迂曲等
时期 P 动脉期,静脉期
性状 T 大小,形态,密度等
修饰词 A 未见,可见等
变化 C 增大,扩张等
数值 N 0.8cm,30HU等
数量 Q 九个,一枚等
程度 De 严重,稍微等

特征选取
《医疗CT文本结构化研究与系统实现》 -分析与实现
内部标注规则
《医疗CT文本结构化研究与系统实现》 -分析与实现
标注类别
《医疗CT文本结构化研究与系统实现》 -分析与实现
例子

原始语句:
脾静脉增粗、迂曲,其内未见明显充盈缺损影。胆囊壁未见明显增厚。 中文分词及标注:
脾/n,静脉/n,增/v,粗/a,、/w,迂曲/a,,/w,其内/r,未见/nz,明显乂充盈/v,缺损/v,影/ng,。/w,胆囊/n,壁/ng,未见/nz,明显/a,增/v,厚/a,。/w
CRF标注结果:
脾/O-B,静脉/O-E,增/C-B,粗/C-E,、/M,迂曲/S-S,,/M,其内/M,未见/A-S,明显/M,充盈/D-B,缺损/D-I,影/D-E,。脱,胆囊/0-B,壁/O-E,未见/A-S,明显/M,增/C-B,厚/C-E,。/M
合并相关内部标记得到实体:
脾静脉/〇,增粗/C,、/M,迂曲/S,,/M,其内/M,未见/A,明显/M,充盈缺损影/D,。/M,胆囊壁/0,未见/A,明显/M,增厚/C,。/M

因此我们可以得到样例中的实体有:“脾静脉”、“增粗”、“迂曲”、“未见”、“充盈缺损影”、“胆囊壁”、“未见”、“増厚”。

4,文本结构化算法

4,1 句子划分

句子划分主要可以分为两类:一是把多个语义连续的句子当做一个句子进行处理,二是把包含有多个内容的长句子,划分为多个独立的短句进行处理。
使用CRF++进行句子序列标注
《医疗CT文本结构化研究与系统实现》 -分析与实现

原始语句:
肝内外胆管未见扩张及异常密度灶,胆囊不大,壁不厚,其内未见阳性结石影。
中文分词及标注:
肝/n,内外/f,胆管/n,未见/nz,扩张/vn,及/cc,异常/a,密度/n,灶/n,,/w,胆囊/n,不大/d,,/w,壁/ng,不/d,厚/a,,/w,其内/r,未见/nz,阳性/n,结石/nhd,影/ng,。/wCRF标注结果:20肝/〇,内外/〇,胆管/〇,未见/〇,扩张/〇,及/〇,异常/〇,密度/〇,灶/〇,,/s,胆囊/〇,不大/〇,,/〇,壁/〇,不/〇,厚/〇,,/〇,其内/〇,未见/〇,阳性/〇,结石/0,影/0,。/S

4.2 推导规则定义

推导规则分为两类:第一类为生成类型规则,第二类为推导类型规则。

规则A 规则D
生成类型规则: A D -> D A
推导类型规则:A D -> D C ==> A - > D -> C

4.3 结果归一化

词向量 word2Vec过程

  • 分词 - 去除停用词 - 生成训练文本
  • 单词 - 出现数量
  • 构建词的哈夫曼树

5,结构化处理流程

  • 预处理阶段
    数据清洗,构建自定义词库,中文分词,
  • 属性提取阶段

文章代码

相关文章:

  • 2021-11-15
  • 2021-04-27
  • 2021-11-01
  • 2021-04-12
  • 2021-11-14
  • 2021-07-10
  • 2021-11-11
  • 2021-11-29
猜你喜欢
  • 2021-10-05
  • 2022-01-31
  • 2021-11-17
  • 2021-11-23
  • 2021-12-29
  • 2021-12-29
  • 2021-06-24
相关资源
相似解决方案