其中,n表示n-gram的长度,{Reference Summaries}表示参考摘要,即事先获得的标准摘要,表示候选摘要和参考摘要中同时出现n-gram的个数,
则表示参考摘要中出现的n-gram个数。不难看出,ROUGE公式是由召回率的计算公式演变而来的,分子可以看作“检出的相关文档数目”,即系统生成摘要与标准摘要相匹配的N-gram个数,分母可以看作“相关文档数目”,即标准摘要中所有的N-gram个数。
例:R1 : police killed the gunman.
R2 : the gunman was shot down by police.
C1 : police ended the gunman.
C2 :the gunman murdered police.
R1,R2 为参考摘要,C1,C2 为候选摘要。
ROUGE-1(C1)=(3+3)/(4+7)=6/11
ROUGE-1(C2)=(3+3)/(4+7)=6/11
ROUGE-2(C1)=(1+1)/(3+6)=2/9
ROUGE-2(C2)=(1+1)/(3+6)=2/9
C1与C2的ROUGE-1、ROUGE-2分数相等,但是意思完全不相同!
优点:
直观,简洁,能反映词序。
缺点:
区分度不高,且当N>3时,ROUGE-N值通常很小。
应用场景:
ROUGE-1:短摘要评估,多文档摘要(去停用词条件);
ROUGE-2: 单文档摘要,多文档摘要(去停用词条件);
(2)ROUGE-L( Longest Common Subsequence )
公共子序列:给定两个序列X和Y,如果Z既是X的一个子序列又是Y的一个子序列,
则序列Z是X和Y的一个公共子序列。
LCS(最长公共子序列):给定两个序列X和Y,使得公共子序列长度最大的序列是X和Y的最长公共子序列。
Sentence-Level LCS
计算公式:
其中X为参考摘要,长度为m,Y为候选摘要,长度为n,用F值来衡量摘要X与Y的相似度,在DUC测评中,由于,所以只考虑
。
C1 : police ended the gunman.
C2 : the gunman murdered police.
R1为参考摘要,C1,C2为候选摘要。
ROUGE-L(C1)=3/4
ROUGE-L(C2)=2/4
C1优于C2!
优点:
不要求词的连续匹配,只要求按词的出现顺序匹配即可,能够像n-gram一样
反映句子级的词序。
自动匹配最长公共子序列,不需要预先定义n-gram的长度。
缺点:
只计算一个最长子序列,最终的值忽略了其他备选的最长子序列及较短子序列的影响。
应用场景:
单文档摘要;短摘要评估。
例:R1 : police killed the gunman.
将LCS应用到摘要级数相时,对参考摘要中的每一个句子C1 :the gunman murdered police.
C2 : the gunman police killed.
R1为参考摘要,C1,C2为候选摘要。
ROUGE-L(C1)=2/4
ROUGE-L(C2)=2/4
ROUGE-2(C1)=1/4
ROUGE-2(C2)=2/4
C1与C2的ROUGE-L分数相等,但C2的ROUGE-2分数高于C1,C2优于C1!
Summary-Level LCS
计算公式:
其中R为参考摘要,包含u个句子,m个词,C为候选摘要,包含v个句子,n个词,长度为n, 是句子
和候选摘要C的union LCS。
例:参考只要集句子 : w1 w2 w3 w4 w5
候选摘要C包含两个句子
c1 : w1 w2 w6 w7 w8
c2 : w1 w3 w8 w9 w5
与 c1 的LCS 为w1 w2,与c2的LCS为w1 w3 w5,与C的union LCS 为w1 w2 w3 w5。
ROUGE-L(C)=4/5