Transformer中的Layer和heads到底是什么?
上图是Transformer中编码器的部分,谷歌发布的BERT模型中有一个是chinese_L-12_H-768_A-12
分别表示的意思是:
12个transformer-block(也称为12层)
768 embedding-dimension(字向量)的维度=768
12注意力机制头的个数

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2021-12-17
  • 2021-09-15
  • 2022-02-02
  • 2021-11-20
猜你喜欢
  • 2021-09-02
  • 2022-12-23
  • 2021-07-11
  • 2021-08-08
  • 2021-11-23
  • 2021-04-21
  • 2021-06-17
相关资源
相似解决方案