CS224N-共指消解学习笔记

说明：本博文用于记录学习斯坦福CS224N的相关笔记，其中内容，截图来自相应课件和视频。

一、任务定义

共指消解（coreference resolution）：Identify all mentions that refer to the same real world entity，找到所有指向真实世界中同一entity的mention。

例如，在下面这个例子中，Barack Obama，his，he均指代Barack Obama，而Hillary Rodham Clinton、secretary of state、her、she、First Lady均指代Hillary Rodham Clinton。
Barack Obama nominated Hillary Rodham Clinton as his secretary of state on Monday. He chose her because she had foreign affairs experience as a former First Lady.

概念对比

回指

The use of a word that refers to or replaces another word used earlier in a sentence when a term (anaphor照应) refers to another term (antecedent先行词)

回指是一种语言现象，即下文的词返指或代替上文的词。其中，被指代的上文中的词称之为先行词（antecedent），指代称为照应（anaphor）。

回指又可以分为两种：代词回指（pronominal anaphora），以及桥接回指（bridging anaphora）。

代词回指：照应通常是代词，需要找到代词对应的先行词。
桥接回指：在桥接回指中，照应和先行词都是具体指代，但是这两个指代之间存在一定的照应，或者说解释关系，例如下文中的“a concert”和“The tickets”：
We went to see a concert last night. The tickets were really expensive.

在回指中，照应的解释在一定程度上依赖于先行词，重点在于找到指代对应的先行词；而对于共指，指代的解释取决于指代本身，重点在于判断指代之间是否具有共指关系，如图所示：
CS224N-共指消解学习笔记
共指与回指之间存在一定的重叠关系，如图所示：

下指

下指（Cataphora）：指后照应，顺向照应(语言单位由下文加以说明)，与回指的区别在于先行词通常在指代词的后面。

二、应用场景

Full text understanding

共指消解有助于对文本的全面理解，从而促进信息抽取（information extraction），自动问答（question answering），文本摘要（summarization）

机器翻译（machine translation）

在不同的语言中，指代词各有特点，因此理解代词的具体指代，有利于提升系统的翻译效果。

对话系统（Dialogue Systems）

在对话系统，理解不同mention的真实指代，有利于理解用户的真实意图，如图所示：
CS224N-共指消解学习笔记

三、研究方法

共指消解包括两步：Detect the mentions，以及cluster the mentions。前者比较容易，后者则较为困难。

Entity Mention：span of text referring to some entity，具体包括代词（pronouns）、命名实体（named entities）、名词短语（noun phrases）以及其它。

代词：可以通过词性标注工具来获取
命名实体：可以通过NER工具来获取
名词短语：parser，例如 a constituency parser

但是值得注意的是，并不是所有的代词、命名实体以及名词短语都是好的mention，例如：
（1）It is sunny
（2）Every student
（3）No student
（4）The best donut in the world
（5）100 miles
在上述例子中，这些mention指代的是一种抽象概念，而不是具体的事物。对于这些指代，可以通过训练一个分类器来过滤掉，但更常见的方法是将其视为候选指代。

四、共指消解模型

Rule-based (pronominal anaphora resolution)

代表方法是：Hobbs’ naive algorithm (1976)，以及Knowledge-based Pronominal Coreference（Winograd Schema）。

Mention-Pair Model

基于mention pair的方法通过训练一个二分类器来判断给定的mention pair之间是否具有共指关系，然后在预测时通过设定阈值以及共指的传递性来将多组mention pair聚成多类。

模型输入：mention集合，以及mention所在文档
模型输出：mention i 和mention j之间具备共指关系的概率（0-1）

训练

CS224N-共指消解学习笔记

测试

CS224N-共指消解学习笔记

缺陷

Mention-Pair Model的问题在于很难得到较远距离的mention之间的共指关系，同时很多mention往往只有一个明确的先行词，而模型却要预测出mention的所有的先行词。
CS224N-共指消解学习笔记

Mention-Ranking Model

与mention pair model成对进行训练不同，mention ranking model直接对mention的所有先行词（文本中位于指代前面的所有指代都被视为候选指代）预测一个概率分布，然后选择概率最高的mention作为先行词。同时，为了避免模型将当前的指代链接到single mention或者first mention，可以在mention集合中增加一个Dummy NA。

在预测时，不同于mention pair模型，mention ranking模型中每个mention只会链接到一个mention上，因此可以避免mention pair模型的第二个问题。
CS224N-共指消解学习笔记

Clustering

五、二分类器或ranking模型实现

Non-neural statistical classifier

传统的机器学习，主要通过人工提取特征，然后使用SVM，最大熵等方法来实现分类和排序模型。在共指消解模型中，常用的特征包括：
CS224N-共指消解学习笔记

Simple neural network

输入层包括word embedding，以及一些额外的分类特征。Word embeddings包括所有mention的Previous two words, first word, last word, head word。其中，Head word是指mention中最重要的word，可以通过一些parser来得到。分类特征包括：distance，document genre，以及speaker information等。
CS224N-共指消解学习笔记

More advanced model

除了简单的前馈神经网络之外，还可以采用LSTM，或者在模型中融入注意力机制。

文章目录

一、任务定义

概念对比

回指

下指

二、应用场景

Full text understanding

机器翻译（machine translation）

对话系统（Dialogue Systems）

三、研究方法

四、共指消解模型

Rule-based (pronominal anaphora resolution)

Mention-Pair Model

训练

测试

缺陷

Mention-Ranking Model

Clustering

五、二分类器或ranking模型实现

Non-neural statistical classifier

Simple neural network

More advanced model