信息抽取

信息抽取定义：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。

信息抽取的主要任务有：

任务：识别出待处理文本中七类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。

两个子任务：实体边界识别和确定实体类型。

特点：

方法：

任务：给定某一类别的实体实例，从网页中抽取同一类别其他实体实例。

基本思路：种子词与目标词在网页中具有相同或者类似的上下文。

方法一般分为模板抽取和实例候选置信度计算两个模块，两部分迭代进行，相互依赖。以无监督的方法为主。

实体消歧：确定一个实体指称所指向的真实世界实体，就是命名实体消歧。

实体消歧分类：

基本思路：同一指称项具有近似的上下文，利用聚类算法进行消歧。

核心问题：选取何种特征对指称项进行表示。

总结：主要研究集中在实体指称项的语义表示，已有工作大多都是通过扩展特征，增加更多的知识来提高消歧精度。

任务：给定实体指称项和它所在的文本，将其链接到给定知识库中的相应实体上。

信息抽取

主要步骤：

候选实体的发现

方法：
- 利用Wikipedia的信息
  1. 利用Wikipedia中锚文本的超级链接关系
  2. 利用Wikipedia中的消歧页面
  3. 利用Wikipedia中的重定向页面
- 利用上下文信息
候选实体的链接
- 基本方法：计算实体指称项和候选实体的相似度，选择相似度最大的候选实体。
- 单一实体链接
  1. 使用BOW模型计算相似度
  2. 加入候选实体的类别特征
  3. 加入候选实体的流行度等特征
- 协同实体链接：不仅考虑实体指称项与目标实体之间的语义相似度，也要考虑目标实体之间的语义相似度。目标实体之间的语义相似度计算方法：
  1. 利用实体类别重合度计算
  2. 利用实体之间链接关系计算
  3. 基于图的协同链接
  4. 基于深度学习的实体链接方法

总结