《医疗CT文本结构化研究与系统实现》 -分析与实现

类别	标注	样例
器官部位	O	脾脏，腹腔等
疾病	D	腹水，结实，积液等
状态	S	片团状，迂曲等
时期	P	动脉期，静脉期
性状	T	大小，形态，密度等
修饰词	A	未见，可见等
变化	C	增大，扩张等
数值	N	0.8cm，30HU等
数量	Q	九个，一枚等
程度	De	严重，稍微等

特征选取
《医疗CT文本结构化研究与系统实现》 -分析与实现
内部标注规则

标注类别

例子

原始语句：
脾静脉增粗、迂曲，其内未见明显充盈缺损影。胆囊壁未见明显增厚。中文分词及标注：
脾／ｎ，静脉／ｎ，增／ｖ，粗／ａ，、／ｗ，迂曲／ａ，，／ｗ，其内／ｒ，未见／ｎｚ，明显乂充盈／ｖ，缺损／ｖ，影／ｎｇ，。／ｗ，胆囊／ｎ，壁／ｎｇ，未见／ｎｚ，明显／ａ，增／ｖ，厚／ａ，。／ｗ
CRF标注结果：
脾／Ｏ－Ｂ，静脉／Ｏ－Ｅ，增／Ｃ－Ｂ，粗／Ｃ－Ｅ，、／Ｍ，迂曲／Ｓ－Ｓ，，／Ｍ，其内／Ｍ，未见／Ａ－Ｓ，明显／Ｍ，充盈／Ｄ－Ｂ，缺损／Ｄ－Ｉ，影／Ｄ－Ｅ，。脱，胆囊／０－Ｂ，壁／Ｏ－Ｅ，未见／Ａ－Ｓ，明显／Ｍ，增／Ｃ－Ｂ，厚／Ｃ－Ｅ，。／Ｍ
合并相关内部标记得到实体：
脾静脉／〇，增粗／Ｃ，、／Ｍ，迂曲／Ｓ，，／Ｍ，其内／Ｍ，未见／Ａ，明显／Ｍ，充盈缺损影／Ｄ，。／Ｍ，胆囊壁／０，未见／Ａ，明显／Ｍ，增厚／Ｃ，。／Ｍ
…
因此我们可以得到样例中的实体有：“脾静脉”、“增粗”、“迂曲”、“未见”、“充盈缺损影”、“胆囊壁”、“未见”、“増厚”。

4，文本结构化算法

4,1 句子划分

句子划分主要可以分为两类：一是把多个语义连续的句子当做一个句子进行处理，二是把包含有多个内容的长句子，划分为多个独立的短句进行处理。
使用CRF++进行句子序列标注
《医疗CT文本结构化研究与系统实现》 -分析与实现

原始语句：
肝内外胆管未见扩张及异常密度灶，胆囊不大，壁不厚，其内未见阳性结石影。
中文分词及标注：
肝／ｎ，内外／ｆ，胆管／ｎ，未见／ｎｚ，扩张／ｖｎ，及／ｃｃ，异常／ａ，密度／ｎ，灶／ｎ，，／ｗ，胆囊／ｎ，不大／ｄ，，／ｗ，壁／ｎｇ，不／ｄ，厚／ａ，，／ｗ，其内／ｒ，未见／ｎｚ，阳性／ｎ，结石／ｎｈｄ，影／ｎｇ，。／ｗＣＲＦ标注结果：２０肝／〇，内外／〇，胆管／〇，未见／〇，扩张／〇，及／〇，异常／〇，密度／〇，灶／〇，，／ｓ，胆囊／〇，不大／〇，，／〇，壁／〇，不／〇，厚／〇，，／〇，其内／〇，未见／〇，阳性／〇，结石／０，影／０，。／Ｓ

4.2 推导规则定义

推导规则分为两类：第一类为生成类型规则，第二类为推导类型规则。

规则A 规则D
生成类型规则： A D -> D A
推导类型规则：A D -> D C ==> A - > D -> C

4.3 结果归一化

词向量 word2Vec过程

分词 - 去除停用词 - 生成训练文本
单词 - 出现数量
构建词的哈夫曼树

5，结构化处理流程

预处理阶段
数据清洗，构建自定义词库，中文分词，
属性提取阶段

文章目录

文章链接

使用理由

文章内容整理

4，文本结构化算法

4,1 句子划分

4.2 推导规则定义

4.3 结果归一化

5，结构化处理流程

文章代码