bert之token embeddings、segmentation embeddings、position embeddings

token embeddings、segmentation embeddings、position embeddings。

token embeddings：每个词用索引表示，维度（1,n,768）

segmentation embeddings：前一个句子的词用0表示，后一个句子的词用1表示，维度（1,n,768）

position embeddings：维度（1,n,768）

（1）使用WordPiece嵌入（Wu et al., 2016）和30,000个token的词汇表。用##表示分词。

（2）使用学习的positional embeddings，支持的序列长度最多为512个token。每个序列的第一个token始终是特殊分类嵌入（[CLS]）。对应于该token的最终隐藏状态（即Transformer的输出）被用作分类任务的聚合序列表示。对于非分类任务，将忽略此向量。

（3）句子对被打包成一个序列。以两种方式区分句子。首先，用特殊标记（[SEP]）将它们分开。其次，添加一个learned sentence A嵌入到第一个句子的每个token中，一个sentence B嵌入到第二个句子的每个token中。

（4）对于单个句子输入，只使用 sentence A嵌入。