BERT调研 - 爱码网

BERT(Bidirectional Encoder Representation from Transformers,基于变压器的双向编码器表示)，是一个深度双向表示预训练模型，能够更深层次地提取文本的语义信息。

①双向Transforms

当前在NLP领域，Word2vec是使用最广泛的词向量训练工具。但 Word2vec是通过窗口进行工作的，所“学习”到的语义信息受制于窗口大小。

因此有学者提出利用可以获取长距离依赖的 LSTM语言模型预训练词向量。LSTM模型根据句子的上文信息来预测下文，或者根据下文来预测上文，只学习到了单向的信息。

Peters等提出了ELMo，这是一种双层双向的LSTM结构，其训练的语言模型可以学习到句子左右两边的上下文信息，在一定程度上解决了模型只能学习单向信息的问题。

此外，Radford等提出了GPT，利用 Transformers的编码器作为语言模型进行预训练，下游的NLP任务在其基础上进行微调即可。与LSTM相比，GPT语言模型的优点是可以获得句子上下文更远距离的语言信息，但也是单向的。

为了充分利用左右两侧的上下文信息，Jacob等提出了BERT模型。下图是预训练模型结构对比。
BERT调研
GPT只是一个从左到右，ELMo虽然有考虑从左到右和从右到左，但是是两个分开的网络，只有BERT是真正意义上的同时考虑了上下文。

②句子级别的应用
BERT调研
③能够解决的任务

如下图所示，a、b都是sentence级别的（文本分类，关系抽取等），c、d是tokens级别的（命名实体识别，知识问答等）。
BERT调研

神经机器翻译大多使用RNN或RNN的变体（LSTM，GRU等）作为编码器-解码器的模型库。

传统的机器翻译基本上是基于Seq2Seq模型。该模型分为编码器层和解码器层，其主要瓶颈是需要将源序列的全部内容压缩为固定大小的矢量。如果文本稍长，则很容易丢失文本的某些信息。

2017年，谷歌发表了一篇题为“Attention is All You Need”的论文，提出了一种基于注意力的结构来处理与序列模型相关的问题，例如机器翻译。

谷歌的基于注意力的模型放弃了传统的RNN等公式。为了解决这个问题，注意力应运而生。注意机制通过允许解码器回顾源序列隐藏状态，然后将其加权平均值作为附加输入提供给解码器来缓解该问题。

变压器模型使用编码器-解码器架构。在Google发表的论文中，编码器层由6个编码器堆叠，解码器层相同。每个编码器和解码器的内部结构如下：
BERT调研

编码器由两层组成，一个自注意层和一个前馈神经网络。
自我关注有助于当前节点不仅关注当前单词，而且还获得上下文的语义。

解码器除了包含编码器提到的双层网络，在两层中间还有一个关注层，以帮助当前节点获得需要注意的关键内容。