12.10 抽取式摘要论文阅读 HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for D

摘要

我们提出了Hiebert（作为来自变压器的分层双向编码器表示的缩写），用于文档编码和使用未标记数据对其进行预训练的方法

先预训练摘要模型的复杂的部分，（the hierarchical encoder），然后，我们学习从预先训练的编码器初始化我们的模型来对句子进行分类。

无监督的模型

Model

12.10 抽取式摘要论文阅读 HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for D
Hibbert在培训过程中的架构。Senti是上述文件中的一句话，总共有4个句子。在编码期间掩蔽Sent3，并且解码器预测原始Sent3。

12.10 抽取式摘要论文阅读 HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for D
表示一个文档，
是文档中的一个句子，w是句子中的单词。

为获得文档D的表达，使用了两个encoder:

sentence encoder – 将文档中的每个句子转换成一个向量
2.document encoder – 用于学习以其周围句子为上下文的句子表示。
3
词语的embedding
与词语的embedding 一样，本文也考虑了句子的位置信息

单词和句子共享相同的位置嵌入矩阵。

pretraining

Hibbert旨在学习文档的表示，其中它的基本单元是句子。因此，预先训练文档级模型(例如Hiebert)的自然方式是预测句子(或句子)而不是单词(或单词)。我们可以预测文档中所有句子的左边(或右边)，就像在(文档级别)语言模型中一样。但是，在总结中，两个方向的上下文都是可用的。因此，我们选择使用其左侧和右侧的所有句子来预测句子。

document masking

训练的时候：随机地选择百分之十五的数据，对其进行屏蔽。然后，我们预测这些蒙面句子。这里的预测任务类似于完形填空任务(Taylor，1953年；Devlin等人，2018)，但缺少的部分是一个句子。

测试的时候：mask 的方法与 Bert 中对于单词的mask的方法一致 80% 的时候 replace 句中的每个单词变成mask . 百分之10 不变。百分之十随机替代。

extractive summarization

摘要提取堪称一个序列标注的问题，对每个句子有一个true 或者false的label。true 意味着这个句子该被包括到summary中。

12.10 抽取式摘要论文阅读 HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for D
用hierarchical bidirectional transformer encoder 应用在文档D上，返回一个所有句子的上下文表达。每个label的概率可用额外的线形层和一个softmax进行估计
12.10 抽取式摘要论文阅读 HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for D

制作数据集：我们将使Rouge最大化的文档中的句子子集(Lin，2004)(针对人类摘要)标记为True，而所有其他句子都标记为false。
12.10 抽取式摘要论文阅读 HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for D
《A deep reinforced model for abstractive summarization. 》
《Deep communicating agents for abstractive summarization》

结论：

提取摘要的核心是层次的文档编码器
提出了一种对未标注数据进行预训练文档级分层双向变压器编码器的方法。

摘要

Model

pretraining

document masking

extractive summarization

结论：

本文就是一个极度与Bert相似的论文