token embeddings、segmentation embeddings、position embeddings。

解释:http://www.mamicode.com/info-detail-2624808.html

token embeddings:每个词用索引表示,维度(1,n,768)

segmentation embeddings:前一个句子的词用0表示,后一个句子的词用1表示,维度(1,n,768)

position embeddings:维度(1,n,768)

bert之token embeddings、segmentation embeddings、position embeddings

(1)使用WordPiece嵌入(Wu et al., 2016)和30,000个token的词汇表。用##表示分词。

(2)使用学习的positional embeddings,支持的序列长度最多为512个token。每个序列的第一个token始终是特殊分类嵌入([CLS])。对应于该token的最终隐藏状态(即Transformer的输出)被用作分类任务的聚合序列表示。对于非分类任务,将忽略此向量。

(3)句子对被打包成一个序列。以两种方式区分句子。首先,用特殊标记([SEP])将它们分开。其次,添加一个learned sentence A嵌入到第一个句子的每个token中,一个sentence B嵌入到第二个句子的每个token中。

(4)对于单个句子输入,只使用 sentence A嵌入。

 

相关文章:

  • 2022-12-23
  • 2022-01-17
  • 2021-04-24
  • 2022-01-26
  • 2021-11-01
  • 2021-12-12
  • 2021-12-11
  • 2021-04-23
猜你喜欢
  • 2021-06-16
  • 2021-09-24
  • 2021-06-20
  • 2021-11-30
  • 2022-02-12
相关资源
相似解决方案