Paper阅读之：Co-HITS-Ranking Based Query-Focused Multi-document Summarization

Paper阅读之

一.论文分类
二.论文创新
三.论文基本内容

1.算法的大致框架

（1）假设（Assumption）
（2）两层次图模型（Two-Layer Graph Model）
（3）同层次排序(Ranking Homogeneous Objects)
（4）不同层次实体的互增强(Co-ranking Heterogeneous Objects)

2.实验设置和实验结果

（1）实验设置
（2）实验结果

本人为入坑NLP，推荐系统，信息检索方向的萌新，导师让我阅读论文，发现看过的论文如果不做记录，不久就会遗忘，在此记录下每篇论文的收获。

一.论文分类

这篇论文分类为Summarization,详细的分类为Multi-Summarization
Summarization：
Document summarization is the process of automatically creating a compressed version of a given document that delivers the main topic of the document. Automated document summarization has drawn much attention for a long time because it becomes more and more important in many text applications.

Multi-Summarization:
Multi-document summarization aims to provide a highly comprehensive overview of a document set.

二.论文创新

如文章Abstract提到的那样，在此前的相关工作中，在Multi-Summarization中的主要工作集中于同层次之间的分析（如对于文档来说，可以分为两个层次，Document本身和Sentence，如我前面的一篇论文阅读报告CollabSum,其就是在Sentence的层次上对于Single Summarization进行了优化），即缺少层次之间的优化，即Sentence和Document之间也是可以存在关系的，这个关系也是一个互增强的关系（mutually boosted）。如果能够利用好这个关系，那么就可以对Summarization进行优化。

三.论文基本内容

文章提出了一个基于流行排序（Manifold-Ranking）和HIST-Ranking的summarization算法（Co-HIST-Ranking），其首先利用流行排序算法来对Document和Sentence分别进行初始打分，然后再利用HIST算法使得Sentence和Document进行互增强（mutually boosted）打分，这样就会得到每一个Sentence的分数，最后使用MMR技术进行冗余数据去除，变得到了summary。
由于我之前没有结果过流行排序算法，仅仅对HIST和PageRank算法有所了解，所以在这里先记录一下流行算法，流行算法提出的Paper为Ranking on Data Manifolds
其主要的算法流程如下图，图来源于¹： Paper阅读之：Co-HITS-Ranking Based Query-Focused Multi-document Summarization

我一开始对这个算法感到很迷惑，没有发现它和PageRank算法的区别，然后发现，在PageRank算法中，存在一个偏置项，以此来保证算法的收敛性，但是在Manifold算法中，没有偏置项，而是被第4步中的y给代替了，所以在第1步骤，其一定最后生成的图必须是一个connected graph，以此来保证第4步的收敛性。这篇博客有对PageRank算法和Manifold算法的一个基本讲解，可以进行参考。

1.算法的大致框架

（1）假设（Assumption）

提出的Co-HIST-Ranking algorithm基于以下的两个假设：
Paper阅读之：Co-HITS-Ranking Based Query-Focused Multi-document Summarization
在Assumption1中，其强调了以下四条关系：
1.句子与查询之间的关系
2.句子与句子之间的关系
3.文档与查询之间的关系
4.文档与文档之间的关系
在Assumption2中，其强调了以下一条关系：
5.文档与句子之间的关系

（2）两层次图模型（Two-Layer Graph Model）

针对文档集中的Sentence和Document分别建立一个无向图，然后再在Sentence和Document之间建立一个无向图。如下图：
Paper阅读之：Co-HITS-Ranking Based Query-Focused Multi-document Summarization
需要注意的是，在G_SS中，query被当作一个pesudo sentence，在G_DD中，query被当作一个pesudo sentence。无向图的权重为两个节点的Cosin Similarity，如下图：

（3）同层次排序(Ranking Homogeneous Objects)

在这一步，作者使用了流行算法来对同层级的实体进行排序，即单独在G_SS和G_DD中进行排序。其具体排序算法已经在Paper中给出，但是我在这里没有弄懂的一点是，其转移矩阵为无向图之间的权重矩阵，这与流行算法给出的定义并不相同，流行算法中其转移矩阵是通过排序得到的一个距离矩阵，并且能够保证为连通图，所以其能够做到收敛，但是在这个算法中使用权重矩阵来代替，似乎不能保证这个算法在使用迭代计算后一定能够收敛，如果有朋友看明白了这一点希望能帮我解答一下疑惑，主要是位于第二步：
Paper阅读之：Co-HITS-Ranking Based Query-Focused Multi-document Summarization

（4）不同层次实体的互增强(Co-ranking Heterogeneous Objects)

这里就是作者提出的Co-HIST-Ranking算法，核心为下面这个迭代式，其中Z_S(0)和Z_D(0)是同层次排序中得到的结果，这个很像在HIST算法中的hub和authority页面，即指向权威authority页面的hub是一个好的hub，而被一个好的hub指向的authority页面是一个权威的authority页面，这就是互增强。
Paper阅读之：Co-HITS-Ranking Based Query-Focused Multi-document Summarization
在最后，通过Co-HIST-Ranking算法得到了每个sentence的重要性打分，然后使用MMR的变体算法降低冗余度来获得summary。

2.实验设置和实验结果

（1）实验设置

实验的data set，evaluate method都是Summarization中较为常规的方法，没有特别好说明的

（2）实验结果

实验结果显示此方法相对baseline method和单纯的基于sentence的方法有所进步，但是从paper中可以看到，进步相对来说还是比较少的，而且如果针对query-relative来使用流行算法和HIST算法进行summary，其运行效率和时间消耗我认为可能是一个比较大的问题，因为流行算法和HIST算法都是需要迭代的算法，可能会有不可接受的时间消耗。

https://blog.csdn.net/davidsmith8/article/details/78515747 ↩︎