本人为入坑NLP,推荐系统,信息检索方向的萌新,导师让我阅读论文,发现看过的论文如果不做记录,不久就会遗忘,在此记录下每篇论文的收获。

一.论文分类

这篇论文分类为Summarization,详细的分类为Multi-Summarization
Summarization:
  Document summarization is the process of automatically creating a compressed version of a given document that delivers the main topic of the document. Automated document summarization has drawn much attention for a long time because it becomes more and more important in many text applications.

Multi-Summarization:
  Multi-document summarization aims to provide a highly comprehensive overview of a document set.

二.论文创新

  如文章Abstract提到的那样,在此前的相关工作中,在Multi-Summarization中的主要工作集中于同层次之间的分析(如对于文档来说,可以分为两个层次,Document本身和Sentence,如我前面的一篇论文阅读报告CollabSum,其就是在Sentence的层次上对于Single Summarization进行了优化),即缺少层次之间的优化,即Sentence和Document之间也是可以存在关系的,这个关系也是一个互增强的关系(mutually boosted)。如果能够利用好这个关系,那么就可以对Summarization进行优化。

三.论文基本内容

  文章提出了一个基于流行排序(Manifold-Ranking)和HIST-Ranking的summarization算法(Co-HIST-Ranking),其首先利用流行排序算法来对Document和Sentence分别进行初始打分,然后再利用HIST算法使得Sentence和Document进行互增强(mutually boosted)打分,这样就会得到每一个Sentence的分数,最后使用MMR技术进行冗余数据去除,变得到了summary。
  由于我之前没有结果过流行排序算法,仅仅对HIST和PageRank算法有所了解,所以在这里先记录一下流行算法,流行算法提出的Paper为Ranking on Data Manifolds
其主要的算法流程如下图,图来源于1Paper阅读之:Co-HITS-Ranking Based Query-Focused Multi-document Summarization

  我一开始对这个算法感到很迷惑,没有发现它和PageRank算法的区别,然后发现,在PageRank算法中,存在一个偏置项,以此来保证算法的收敛性,但是在Manifold算法中,没有偏置项,而是被第4步中的y给代替了,所以在第1步骤,其一定最后生成的图必须是一个connected graph,以此来保证第4步的收敛性。这篇博客有对PageRank算法和Manifold算法的一个基本讲解,可以进行参考。

1.算法的大致框架

(1)假设(Assumption)

  提出的Co-HIST-Ranking algorithm基于以下的两个假设:
Paper阅读之:Co-HITS-Ranking Based Query-Focused Multi-document Summarization
在Assumption1中,其强调了以下四条关系:
  1.句子与查询之间的关系
  2.句子与句子之间的关系
  3.文档与查询之间的关系
  4.文档与文档之间的关系
在Assumption2中,其强调了以下一条关系:
  5.文档与句子之间的关系

(2)两层次图模型(Two-Layer Graph Model)

  针对文档集中的Sentence和Document分别建立一个无向图,然后再在Sentence和Document之间建立一个无向图。如下图:
Paper阅读之:Co-HITS-Ranking Based Query-Focused Multi-document Summarization
  需要注意的是,在GSS中,query被当作一个pesudo sentence,在GDD中,query被当作一个pesudo sentence。无向图的权重为两个节点的Cosin Similarity,如下图:
Paper阅读之:Co-HITS-Ranking Based Query-Focused Multi-document Summarization

(3)同层次排序(Ranking Homogeneous Objects)

  在这一步,作者使用了流行算法来对同层级的实体进行排序,即单独在GSS和GDD中进行排序。其具体排序算法已经在Paper中给出,但是我在这里没有弄懂的一点是,其转移矩阵为无向图之间的权重矩阵,这与流行算法给出的定义并不相同,流行算法中其转移矩阵是通过排序得到的一个距离矩阵,并且能够保证为连通图,所以其能够做到收敛,但是在这个算法中使用权重矩阵来代替,似乎不能保证这个算法在使用迭代计算后一定能够收敛,如果有朋友看明白了这一点希望能帮我解答一下疑惑,主要是位于第二步:
Paper阅读之:Co-HITS-Ranking Based Query-Focused Multi-document Summarization

(4)不同层次实体的互增强(Co-ranking Heterogeneous Objects)

  这里就是作者提出的Co-HIST-Ranking算法,核心为下面这个迭代式,其中ZS(0)和ZD(0)是同层次排序中得到的结果,这个很像在HIST算法中的hub和authority页面,即指向权威authority页面的hub是一个好的hub,而被一个好的hub指向的authority页面是一个权威的authority页面,这就是互增强。
Paper阅读之:Co-HITS-Ranking Based Query-Focused Multi-document Summarization
在最后,通过Co-HIST-Ranking算法得到了每个sentence的重要性打分,然后使用MMR的变体算法降低冗余度来获得summary。

2.实验设置和实验结果

(1)实验设置

  实验的data set,evaluate method都是Summarization中较为常规的方法,没有特别好说明的

(2)实验结果

  实验结果显示此方法相对baseline method和单纯的基于sentence的方法有所进步,但是从paper中可以看到,进步相对来说还是比较少的,而且如果针对query-relative来使用流行算法和HIST算法进行summary,其运行效率和时间消耗我认为可能是一个比较大的问题,因为流行算法和HIST算法都是需要迭代的算法,可能会有不可接受的时间消耗。


  1. https://blog.csdn.net/davidsmith8/article/details/78515747 ↩︎

相关文章: