摘要
我们提出了Hiebert(作为来自变压器的分层双向编码器表示的缩写),用于文档编码和使用未标记数据对其进行预训练的方法
先预训练摘要模型的复杂的部分,(the hierarchical encoder),然后,我们学习从预先训练的编码器初始化我们的模型来对句子进行分类。
无监督的模型
Model
Hibbert在培训过程中的架构。Senti是上述文件中的一句话,总共有4个句子。在编码期间掩蔽Sent3,并且解码器预测原始Sent3。
表示一个文档,
是文档中的一个句子,w是句子中的单词。
为获得文档D的表达,使用了两个encoder:
- sentence encoder – 将文档中的每个句子转换成一个向量
2.document encoder – 用于学习以其周围句子为上下文的句子表示。
3
词语的embedding
与词语的embedding 一样,本文也考虑了句子的位置信息
单词和句子共享相同的位置嵌入矩阵。
pretraining
Hibbert旨在学习文档的表示,其中它的基本单元是句子。因此,预先训练文档级模型(例如Hiebert)的自然方式是预测句子(或句子)而不是单词(或单词)。我们可以预测文档中所有句子的左边(或右边),就像在(文档级别)语言模型中一样。但是,在总结中,两个方向的上下文都是可用的。因此,我们选择使用其左侧和右侧的所有句子来预测句子。
document masking
训练的时候:随机地选择百分之十五的数据,对其进行屏蔽。然后,我们预测这些蒙面句子。这里的预测任务类似于完形填空任务(Taylor,1953年;Devlin等人,2018),但缺少的部分是一个句子。
测试的时候:mask 的方法与 Bert 中对于单词的mask的方法一致 80% 的时候 replace 句中的每个单词 变成mask . 百分之10 不变。百分之十随机替代。
extractive summarization
摘要提取堪称一个序列标注的问题,对每个句子有一个true 或者false的label。true 意味着这个句子该被包括到summary中。
用hierarchical bidirectional transformer encoder 应用在文档D上,返回一个所有句子的上下文表达。每个label的概率可用额外的线形层和一个softmax进行估计
制作数据集 :我们将使Rouge最大化的文档中的句子子集(Lin,2004)(针对人类摘要)标记为True,而所有其他句子都标记为false。
《A deep reinforced model for abstractive summarization. 》
《Deep communicating agents for abstractive summarization》
结论:
提取摘要的核心是层次的文档编码器
提出了一种对未标注数据进行预训练文档级分层双向变压器编码器的方法。