本文是机器阅读理解(Machine Reading Comprehension, MRC)的相关笔记,书目为:朱晨光《机器阅读理解:算法与实践》。推荐看原书!
测评方式
| 类型 | 评测方式 | |
|---|---|---|
| 多项选择和完形填空 | 客观 | 准确率 |
| 区间答案式 | 半客观 | 精确匹配和F1(准确率和召回率调和平均) |
| 自由回答式 | 主观 | 语义匹配(难),单词水平的匹配率(易) |
准确率与召回率
准确率是指在模型给出的答案中有多大比例的单词在标准答案中出现;召回率是指在标准答案中有多大比例的单词在模型给出的答案中出现。
通俗来讲,准确率相当于模型做对了多少,召回率则是看标准答案中有多少被模型做对了。
自由回答式评测标准ROUGE
自由回答式评测标准有ROUGE、BLEU和METEOR
ROUGE-N用来测评N元组(N-gram)的召回率,其公式如下:
其中,M为模型答案,counts(A)表示N元组s在标准答案A中出现的次数。ROUGE-N以N元组s在标准答案A中出现的次数和在模型答案M中出现的次数的较小值作为分子。
这种取min是很常见的做法。
ROUGE-S和ROUGE-2(N=2)的定义非常类似,只是ROUGE-S中不要求两个词相邻,而是允许二元组中的两个词在答案中最多相隔Skip个词,其中Skip为参数。例如,“我|很|喜欢|晚上|跑步”中,如果Skip=2,则“我|很”,“我|喜欢”,“我|晚上”都是ROUGE-S所考虑的二元组。
ROUGE-L计算标准答案和模型答案的最长公共子序列(Longest CommonSubsequence, LCS)的长度L。这个子序列不一定要在原序列中连续出现。例如,“我|喜欢|这个|学校”和“我|在|这个|学校|时间|很|长”的最长公共子序列是“我|这个|学校”,长度为3。然后,ROUGE-L计算L和标准答案单词个数的比值RLCS、L和模型答案单词个数的比值PLCS,以及它们的调和平均数FLCS。其中FLCS即为ROUGE-L的分值:
其中,β为ROUGE-L的参数。