1. 什么是BRET?

BERT(Bidirectional Encoder Representation from Transformers,基于变压器的双向编码器表示),是一个深度双向表示预训练模型,能够更深层次地提取文本的语义信息。

2. BERT的特点

①双向Transforms

当前在NLP领域,Word2vec是使用最广泛的词向量训练工具。但 Word2vec是通过窗口进行工作的,所“学习”到的语义信息受制于窗口大小

因此有学者提出利用可以获取长距离依赖的 LSTM语言模型预训练词向量。LSTM模型根据句子的上文信息来预测下文,或者根据下文来预测上文,只学习到了单向的信息

Peters等提出了ELMo,这是一种双层双向的LSTM结构,其训练的语言模型可以学习到句子左右两边的上下文信息,在一定程度上解决了模型只能学习单向信息的问题

此外,Radford等提出了GPT,利用 Transformers的编码器作为语言模型进行预训练,下游的NLP任务在其基础上进行微调即可。与LSTM相比,GPT语言模型的优点是可以获得句子上下文更远距离的语言信息,但也是单向的

为了充分利用左右两侧的上下文信息,Jacob等提出了BERT模型。下图是预训练模型结构对比。
BERT调研
GPT只是一个从左到右,ELMo虽然有考虑从左到右和从右到左,但是是两个分开的网络,只有BERT是真正意义上的同时考虑了上下文。

②句子级别的应用
BERT调研
③能够解决的任务

如下图所示,a、b都是sentence级别的(文本分类,关系抽取等),c、d是tokens级别的(命名实体识别,知识问答等)。
BERT调研

3. 关于Transformer

神经机器翻译大多使用RNN或RNN的变体(LSTM,GRU等)作为编码器-解码器的模型库。

传统的机器翻译基本上是基于Seq2Seq模型。该模型分为编码器层和解码器层,其主要瓶颈是需要将源序列的全部内容压缩为固定大小的矢量。如果文本稍长,则很容易丢失文本的某些信息。

2017年,谷歌发表了一篇题为“Attention is All You Need”的论文,提出了一种基于注意力的结构来处理与序列模型相关的问题,例如机器翻译。

谷歌的基于注意力的模型放弃了传统的RNN等公式。为了解决这个问题,注意力应运而生。注意机制通过允许解码器回顾源序列隐藏状态,然后将其加权平均值作为附加输入提供给解码器来缓解该问题。

变压器模型使用编码器-解码器架构。在Google发表的论文中,编码器层由6个编码器堆叠,解码器层相同。每个编码器和解码器的内部结构如下:
BERT调研

编码器由两层组成,一个自注意层和一个前馈神经网络。
自我关注有助于当前节点不仅关注当前单词,而且还获得上下文的语义。

解码器除了包含编码器提到的双层网络,在两层中间还有一个关注层,以帮助当前节点获得需要注意的关键内容。

相关文章:

  • 2022-01-17
  • 2021-10-10
  • 2022-01-16
  • 2021-10-05
  • 2021-05-14
猜你喜欢
  • 2021-10-15
  • 2022-12-23
  • 2022-01-23
  • 2021-07-21
  • 2021-11-20
  • 2021-11-15
相关资源
相似解决方案