本文是一篇较老的文章了,发表于2014年。文章所提出的思路为生成摘要模型,选择摘要模型,填写摘要模型。作者以会议的摘要为提取对象,所有的语料都是有主讲人的主动语态的句子。
这里主要介绍系统的整体架构:
整个系统分为两个大的模块,离线的模型生成阶段和在线的摘要生成阶段。
1. 模型生成阶段
- 第一步,从由人写的摘要中归纳,将其中的名词用一个上义祠(个人理解就是这个词是该名词的母集,e.g. 猫,狗等名词的上义祠为动物。通过WordNet来获得相应的上义祠)来替代。然后将这些名词当做模板中的空白部分,在之后的步骤中填补这些空白来生成文本摘要,整个句子就是模板的最初形态。
- 第二步,进行聚类,根据不同模板的主要动词(root verb)生成一个全连接网络,计算两个模板之间的相似度(先比较两个动词在WordNet中出现的频率,然后计算动词到对应的上义祠在网络中的最短路径,以此来作为两个模板的相似度)。接下来把全连接网络转化为一个相似矩阵,并利用正则化剪枝,就形成了以主要动词为中心的聚类。
-
第三步,模型融合,将上一步聚类的结果,生成一个单词网络(word Graph),网络中的节点为单词,连接的边表示两个单词是邻接的关系。其中单词网络的生成规则为:首先给定第一个点和最后一个点,然后慢慢的往里面添加模板,先看能不能将模板中的单词添加到单词网络中已有的节点中,(如果一个模板中的单词在节点中出现了并且有相同的POS(part of speech) tag并且在这之前没有模板的单词映射到该节点上,如果模板中的一个空白(blank)和节点有相同的上义祠并且在这之前没有模板的空白映射到该节点上。)满足以上条件的就将模板中的单词映射到该节点上,如果没有满足要求的单词,就在网络中添加一个新的节点来放置该单词。
原始的模板
模板融合之后生成的单词网络
生成单词网络之后需要在单词网络中选择合适的路径来生成最后的模板。作者设计了一套评分标准,选择得分最高的10个句子作为最后的模板,评分如下:
评分标准中W(p)为正则化路径权重,
H为 n-gram 模型的中 n-gram出现的可能性取负对数,然后用长度来进行正则化。
2. 摘要生成阶段
- 第一步,话题分割。去掉一些无意义的词对单词频率进行统计,然后根据单词频率生成对应的话题(这样生成的话题很多,可以通过计算两个话题的余弦相似度来删除一些重复的话题)。
- 第二步,提取词组和主语。和上面模型生成阶段的第一步类似,先取出句子中所有名词,然后用一个上义祠来替换这些名词。
- 第三步,模型的选择和填充。首先根据摘要和对话集合(community)一一对应的关系,找到对话集合所属的组。然后计算话题与所有组中的所有对话集合做一个余弦相似度计算,找到最合适的组。最后用上一步所提取的合适的词语填充模板中的空白生成最后的摘要。最后根据评分生成最多有30个候选句子的摘要。
找到集合对应的组
做余弦相似度的计算
候选句子的评分标准为:
句子的评分标准
其中H为上述的 n-gram 出现的可能性的负对数,然后正则化,该参数评判句子的流畅性。
其中R为二进制序列,计算方法为:如果 top i 的词组在句子中则为1 否则为0。该参数评判句子的覆盖程度。
其中W也为二进制序列,计算方法为,判断第 i 个会议的特征是否满足,如果满足则为 1 ,否则为0。该参数评判句子是否有会议的特征。
会议的特征为:
- 如果在句子的开头出现了”open” 或者”meeting”等词语,会被认为是会议的特征;
- 如果在句子的结尾出现了”close”或者”meeting”等词语,会被认为是会议的特征;
- 如果在句子中中间部分出现了”open”或者”close”,这不被认为是会议的特征,在评分中就会被惩罚。
3.实验部分
-
自动评分(ROUGE-F1):
-
人工评分: