ROUGERecall-Oriented Understudy for Gisting Evaluation),在2004年ISI的Chin-Yew Lin提出的一种自动摘要评价方法,现被广泛应用于DUC(Document Understanding Conference)的摘要评测任务中。ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法。基本思想为由多个专家分别生成人工摘要,构成标准摘要集,将系统生成的自动摘要与人工生成的标准摘要相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量。通过与专家人工摘要的对比,提高评价系统的稳定性和健壮性。该方法现已成为摘要评价技术的通用标注之一。ROUGE准则由一系列的评价方法组成,包括ROUGE-N(N=1、2、3、4,分别代表基于1元词到4元词的模型)ROUGE-L,ROUGE-S, ROUGE-W,ROUGE-SU等。在自动文摘相关研究中,一般根据自己的具体研究内容选择合适的ROUGE方法。

ROUGE评价算法学习

        其中,n表示n-gram的长度{Reference Summaries}表示参考摘要,即事先获得的标准摘要,ROUGE评价算法学习表示候选摘要和参考摘要中同时出现n-gram的个数,ROUGE评价算法学习则表示参考摘要中出现的n-gram个数。不难看出,ROUGE公式是由召回率的计算公式演变而来的,分子可以看作“检出的相关文档数目”,即系统生成摘要与标准摘要相匹配的N-gram个数,分母可以看作“相关文档数目”,即标准摘要中所有的N-gram个数。

   例:R1 : police killed the gunman.

R2 : the gunman was shot down by police.

C1 : police ended the gunman.

C2 :the gunman murdered police.

R1,R2 为参考摘要,C1C2 为候选摘要。

ROUGE-1(C1)=(3+3)/(4+7)=6/11

ROUGE-1(C2)=(3+3)/(4+7)=6/11

ROUGE-2(C1)=(1+1)/(3+6)=2/9

ROUGE-2(C2)=(1+1)/(3+6)=2/9

C1C2的ROUGE-1、ROUGE-2分数相等,但是意思完全不相同!

优点

直观,简洁,能反映词序。

缺点:

区分度不高,且当N>3时,ROUGE-N值通常很小。

应用场景:

ROUGE-1:短摘要评估,多文档摘要(去停用词条件);

ROUGE-2: 单文档摘要,多文档摘要(去停用词条件);

(2)ROUGE-L( Longest Common Subsequence )

        子序列一个给定序列的子序列就是该给定序列中去掉零个或者多个元素。
        公共子序列:给定两个序列XY,如果Z既是X的一个子序列又是Y的一个子序列,
        则序列ZXY的一个公共子序列。
        LCS(最长公共子序列):给定两个序列XY使得公共子序列长度最大的序列XY的最长公共子序列。

Sentence-Level LCS

计算公式:

ROUGE评价算法学习

        其中X为参考摘要,长度为mY为候选摘要,长度为n,用F值来衡量摘要XY的相似度,在DUC测评中,由于ROUGE评价算法学习,所以只考虑ROUGE评价算法学习

 例:  R1 : police killed the gunman.

C1 : police ended the gunman.

C2 : the gunman murdered police.

R1为参考摘要,C1,C2为候选摘要。

ROUGE-L(C1)=3/4

ROUGE-L(C2)=2/4

C1优于C2

优点:

不要求词的连续匹配,只要求按词的出现顺序匹配即可,能够像n-gram一样

反映句子级的词序。

自动匹配最长公共子序列,不需要预先定义n-gram的长度。

缺点:

只计算一个最长子序列,最终的值忽略了其他备选的最长子序列及较短子序列的影响。

应用场景:

单文档摘要;短摘要评估。

   例:R1 : police killed the gunman.

C1 :the gunman murdered police.

C2 : the gunman police killed.

R1为参考摘要,C1,C2为候选摘要。

ROUGE-L(C1)=2/4

ROUGE-L(C2)=2/4

ROUGE-2(C1)=1/4

ROUGE-2(C2)=2/4

C1C2的ROUGE-L分数相等,但C2ROUGE-2分数高于C1C2优于C1!

Summary-Level LCS 

        将LCS应用到摘要级数相时,对参考摘要中的每一个句子ROUGE评价算法学习与候选摘要中的所有句子比对,以union LCS作为摘要句ROUGE评价算法学习的匹配结果。

计算公式:

ROUGE评价算法学习

ROUGE评价算法学习

        其中R为参考摘要,包含u个句子,m个词,C为候选摘要,包含v个句子,n个词,长度为nROUGE评价算法学习 是句子ROUGE评价算法学习和候选摘要C的union LCS。

例:参考只要集句子ROUGE评价算法学习 : w1 w2 w3 w4 w5

        候选摘要C包含两个句子

        c1 : w1 w2 w6 w7 w8

        c2 : w1 w3 w8 w9 w5

        与 c1 的LCS 为w1 w2,与c2的LCS为w1 w3 w5,与Cunion LCS 为w1 w2 w3 w5。

        ROUGE-L(C)=4/5

相关文章:

  • 2022-12-23
  • 2022-02-08
  • 2021-11-18
  • 2021-11-23
  • 2021-10-06
  • 2022-12-23
猜你喜欢
  • 2021-10-15
  • 2022-12-23
  • 2021-06-05
  • 2021-11-27
  • 2021-10-24
  • 2021-11-27
  • 2022-12-23
相关资源
相似解决方案