自然语言处理—阅读理解

一、任务定义

阅读理解任务根据答案类型，可以分为如下四种形式：

完形填空：给定上下文 $C$ ,一个词或者实体 $a \in C$ 被移除，预测 $a$ , 即最大化条件概率 $P(a | C-\{a\})$ .
多项选择：给定上下文 $C$ ，问题 $Q$ , 候选答案集合 $A$ , 要求模型从 $A$ 中选择正确的答案 $a_i$ ，即最大化条件概率 $P(a_i|C,Q,A)$ .
区间提取：给定上下文 $C$ 和问题 $Q$ , 片段抽取任务要求模型从 $C$ 中抽取连续子序列 $a \in C$ 作为正确答案。即最大化条件概率 $P(a | Q, C)$
自由问答: 给定上下文 $C$ 和问题 $Q$ , 需要模型预测出正确答案 $a \in C \ or \ a \notin C$ , 且最大化条件概率 $P(a | C, Q)$

针对完形填空、多项选择、区间提取任务，使用经典的Pre、Rec、F1即可。针对自由问答，有必要详细分类解释。参考[2], 自由问答评价指标可以分为检索类\生成类\基于学习类\人工评测四类。下面一一阐述。

检索类方法是信息检索任务中的一大类评估方法，比如最常用的[email protected], 即给定一个query，选择k个最有可能的response，看正确的是否在这k个里。

生成类方法是现在比较常用的评价指标， 其又可以分为以下几类

比如BLEU, ROUGE, METEOR等，其详细解释可以参考[3].

比如Embedding avrage score, Greedy matching score, Vector extrema score等，详细解释仍然可以见[3]

使用机器学习/深度学习来学习一个好的评价指标，使得模型打分和人工打分更接近。

人工判断结果。