1.transformer

transformer

  • self-attention
    • 当前编码的词和整个句子所有词做attention,权重加在所有句子上获得当前的表示
  • encoder-decoder-attention
    • 当前解码的单元和编码器的所有输出做attention,权重加在所有编码输出上,获得当前的表示
      Bert&transformer
      Bert&transformer

1.1 self-attention

  • 单头

Bert&transformer
Bert&transformer

  • 多头
    Bert&transformer
    Bert&transformer
    Bert&transformer

1.2 残差

Bert&transformer
Bert&transformer
Bert&transformer
Bert&transformer

2.Bert

Bert-

相关文章: