如何从 RoBERTa 获得每个单词（令牌）的单个嵌入向量？答案

【问题标题】：How do you get single embedding vector for each word (token) from RoBERTa?如何从 RoBERTa 获得每个单词（令牌）的单个嵌入向量？
【发布时间】：2021-05-04 15:50:21
【问题描述】：

您可能知道，RoBERTa (BERT, etc.) 有自己的分词器，有时您会得到给定单词的片段作为分词，例如嵌入 » 嵌入，#dings

由于我正在处理的任务的性质，我需要为每个单词提供一个单一的表示。如何获得？

间隙：

sentence: "embeddings are good" --> 给出 3 个单词的标记
输出：[embed,#dings,are,good] --> 4 个标记输出了

当我给预训练的 RoBERTa 提供句子时，我得到了编码的令牌。最后，我需要每个令牌的表示。解决方案是什么？ 逐点求和嵌入 + #dings 标记？

【问题讨论】：

标签： word-embedding bert-language-model pre-trained-model roberta

【解决方案1】：

我不确定是否有标准做法，但我看到其他人所做的只是简单地取子令牌嵌入的平均值。示例：https://arxiv.org/abs/2006.01346，第 2.3 节第 4 行

【讨论】：