一、任务定义

阅读理解任务根据答案类型,可以分为如下四种形式:

  • 完形填空:给定上下文CC,一个词或者实体aCa \in C被移除,预测aa, 即最大化条件概率P(aC{a})P(a | C-\{a\}).
    自然语言处理—阅读理解
  • 多项选择:给定上下文CC,问题QQ, 候选答案集合AA, 要求模型从AA中选择正确的答案aia_i,即最大化条件概率P(aiC,Q,A)P(a_i|C,Q,A).
    自然语言处理—阅读理解
  • 区间提取:给定上下文CC和问题QQ, 片段抽取任务要求模型从CC中抽取连续子序列aCa \in C作为正确答案。即最大化条件概率P(aQ,C)P(a | Q, C)
    自然语言处理—阅读理解
  • 自由问答: 给定上下文CC和问题QQ, 需要模型预测出正确答案aC or aCa \in C \ or \ a \notin C, 且最大化条件概率P(aC,Q)P(a | C, Q)
    自然语言处理—阅读理解

二、数据集

  • 完形填空:CNN & Daily Mail 、CBT、LAMBADA、Who-did-What、CLOTH、CliCR
  • 多项选择:MCTest、RACE
  • 区间提取:QuAD、NewsQA、TriviaQA、DuoRC
  • 自由问答:bAbI、MS MARCO 、SearchQA、NarrativeQA、DuReader

三、评价指标

针对完形填空多项选择区间提取任务,使用经典的Pre、Rec、F1即可。针对自由问答,有必要详细分类解释。参考[2], 自由问答评价指标可以分为检索类\生成类\基于学习类\人工评测四类。下面一一阐述。

3.1 检索类

检索类方法是信息检索任务中的一大类评估方法,比如最常用的[email protected], 即给定一个query,选择k个最有可能的response,看正确的是否在这k个里。

3.2 生成类

生成类方法是现在比较常用的评价指标, 其又可以分为以下几类

3.2.1 词重叠评价指标

比如BLEU, ROUGE, METEOR等,其详细解释可以参考[3].

3.2.2 词向量评价指标

比如Embedding avrage score, Greedy matching score, Vector extrema score等,详细解释仍然可以见[3]

3.3 基于学习的评价指标

使用机器学习/深度学习来学习一个好的评价指标,使得模型打分和人工打分更接近。

3.4 人工评测

人工判断结果。

四、相关文章

五、参考

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2021-09-28
猜你喜欢
  • 2021-12-04
  • 2021-10-06
  • 2022-12-23
  • 2021-12-25
  • 2021-08-25
  • 2021-12-12
相关资源
相似解决方案