【问题标题】:How do you get single embedding vector for each word (token) from RoBERTa?如何从 RoBERTa 获得每个单词(令牌)的单个嵌入向量?
【发布时间】:2021-05-04 15:50:21
【问题描述】:

您可能知道,RoBERTa (BERT, etc.) 有自己的分词器,有时您会得到给定单词的片段作为分词,例如嵌入 » 嵌入,#dings

由于我正在处理的任务的性质,我需要为每个单词提供一个单一的表示。如何获得?

间隙:

sentence: "embeddings are good" --> 给出 3 个单词的标记
输出:[embed,#dings,are,good] --> 4 个标记输出了

当我给预训练的 RoBERTa 提供 句子 时,我得到了编码的令牌。最后,我需要每个令牌的表示。解决方案是什么? 逐点求和嵌入 + #dings 标记?

【问题讨论】:

    标签: word-embedding bert-language-model pre-trained-model roberta


    【解决方案1】:

    我不确定是否有标准做法,但我看到其他人所做的只是简单地取子令牌嵌入的平均值。示例:https://arxiv.org/abs/2006.01346,第 2.3 节第 4 行

    【讨论】:

      猜你喜欢
      • 2020-07-04
      • 1970-01-01
      • 1970-01-01
      • 2013-04-20
      • 1970-01-01
      • 1970-01-01
      • 2018-12-16
      • 2022-06-15
      • 1970-01-01
      相关资源
      最近更新 更多