文章目录
一、任务定义
阅读理解任务根据答案类型,可以分为如下四种形式:
-
完形填空:给定上下文,一个词或者实体被移除,预测, 即最大化条件概率.
-
多项选择:给定上下文,问题, 候选答案集合, 要求模型从中选择正确的答案,即最大化条件概率.
-
区间提取:给定上下文和问题, 片段抽取任务要求模型从中抽取连续子序列作为正确答案。即最大化条件概率
-
自由问答: 给定上下文和问题, 需要模型预测出正确答案, 且最大化条件概率
二、数据集
- 完形填空:CNN & Daily Mail 、CBT、LAMBADA、Who-did-What、CLOTH、CliCR
- 多项选择:MCTest、RACE
- 区间提取:QuAD、NewsQA、TriviaQA、DuoRC
- 自由问答:bAbI、MS MARCO 、SearchQA、NarrativeQA、DuReader
三、评价指标
针对完形填空、多项选择、区间提取任务,使用经典的Pre、Rec、F1即可。针对自由问答,有必要详细分类解释。参考[2], 自由问答评价指标可以分为检索类\生成类\基于学习类\人工评测四类。下面一一阐述。
3.1 检索类
检索类方法是信息检索任务中的一大类评估方法,比如最常用的[email protected], 即给定一个query,选择k个最有可能的response,看正确的是否在这k个里。
3.2 生成类
生成类方法是现在比较常用的评价指标, 其又可以分为以下几类
3.2.1 词重叠评价指标
比如BLEU, ROUGE, METEOR等,其详细解释可以参考[3].
3.2.2 词向量评价指标
比如Embedding avrage score, Greedy matching score, Vector extrema score等,详细解释仍然可以见[3]
3.3 基于学习的评价指标
使用机器学习/深度学习来学习一个好的评价指标,使得模型打分和人工打分更接近。
3.4 人工评测
人工判断结果。