信息抽取
一,信息抽取概述
信息抽取定义:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。
信息抽取的主要任务有:
- 实体识别与抽取
- 实体消歧
- 关系抽取
- 事件抽取
二,实体识别与抽取
1,实体识别
任务:识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
两个子任务:实体边界识别和确定实体类型。
特点:
- 人名、地名、机构名的识别难度较大。
- 内部结构复杂,形式多变。
- 上下文密切相关。
- 考虑到每一类命名实体都具有不同的特征,不同类别的实体适合用不同的识别模型 。
- 人名:用基于字的模型描述其内部结构。
- 地名:用基于词的模型描述。
方法:
- MEMM、HMM和CRF。
- 基于深度学习的分词和命名实体识别。
2,开放域实体抽取
任务:给定某一类别的实体实例,从网页中抽取同一类别其他实体实例。
基本思路:种子词与目标词在网页中具有相同或者类似的上下文。
方法一般分为模板抽取和实例候选置信度计算两个模块,两部分迭代进行,相互依赖。以无监督的方法为主。
三,实体消歧
实体消歧:确定一个实体指称所指向的真实世界实体,就是命名实体消歧。
实体消歧分类:
-
基于聚类的实体消歧
- 把所有的实体指称项按其指向的目标实体进行聚类。
- 每一个实体指称项对应到一个单独的类别。
-
基于实体链接的实体消歧
将实体指称项与目标实体列表中对应实体进行链接实现消歧。
1,基于聚类的实体消歧
基本思路:同一指称项具有近似的上下文,利用聚类算法进行消歧。
核心问题:选取何种特征对指称项进行表示。
-
词袋模型
-
语义特征
-
社会化网络
-
维基百科的知识
-
多源异构语义知识融合
例如:
- Wikipedia:可以用来捕捉概念之间的语义关联。
- WordNet:用于捕捉词语之间的语言学关联。
- Web网页库:用于捕捉命名实体之间的社会化关联。
总结:主要研究集中在实体指称项的语义表示,已有工作大多都是通过扩展特征,增加更多的知识来提高消歧精度。
2,基于链接的实体消歧
任务:给定实体指称项和它所在的文本,将其链接到给定知识库中的相应实体上。
主要步骤:
-
候选实体的发现
方法:
- 利用Wikipedia的信息
- 利用Wikipedia中锚文本的超级链接关系
- 利用Wikipedia中的消歧页面
- 利用Wikipedia中的重定向页面
- 利用上下文信息
- 利用Wikipedia的信息
-
候选实体的链接
-
基本方法:计算实体指称项和候选实体的相似度,选择相似度最大的候选实体。
-
单一实体链接
- 使用BOW模型计算相似度
- 加入候选实体的类别特征
- 加入候选实体的流行度等特征
-
协同实体链接:不仅考虑实体指称项与目标实体之间的语义相似度,也要考虑目标实体之间的语义相似度。目标实体之间的语义相似度计算方法:
- 利用实体类别重合度计算
- 利用实体之间链接关系计算
- 基于图的协同链接
- 基于深度学习的实体链接方法
-
总结
- 目前实体链接方法主要是如何更有效挖掘实体指称项信息,如何更准确地计算实体指称项和实体概念之间的相似度。
- 由单一实体链接向协同实体链接发展。
- 难点:未登录实体的处理。