【发布时间】:2021-05-04 15:50:21
【问题描述】:
您可能知道,RoBERTa (BERT, etc.) 有自己的分词器,有时您会得到给定单词的片段作为分词,例如嵌入 » 嵌入,#dings
由于我正在处理的任务的性质,我需要为每个单词提供一个单一的表示。如何获得?
间隙:
sentence: "embeddings are good" --> 给出 3 个单词的标记
输出:[embed,#dings,are,good] --> 4 个标记输出了
当我给预训练的 RoBERTa 提供 句子 时,我得到了编码的令牌。最后,我需要每个令牌的表示。解决方案是什么? 逐点求和嵌入 + #dings 标记?
【问题讨论】:
标签: word-embedding bert-language-model pre-trained-model roberta