【发布时间】:2020-10-08 15:29:50
【问题描述】:
我正在尝试理解 BERT 词汇 here。它有 1000 个 [unusedxxx] 令牌。我不遵循这些令牌的用法。我了解 [SEP]、[CLS] 等其他特殊标记,但 [未使用] 用于什么?
谢谢!
【问题讨论】:
我正在尝试理解 BERT 词汇 here。它有 1000 个 [unusedxxx] 令牌。我不遵循这些令牌的用法。我了解 [SEP]、[CLS] 等其他特殊标记,但 [未使用] 用于什么?
谢谢!
【问题讨论】:
快速搜索一下就会发现它的用途,特别是在original BERT implementation 和这个HuggingFace thread 的讨论中。
如果您想在微调或进一步的预训练过程中引入特定单词,未使用的标记会很有帮助;它们允许您按照自己的意愿处理仅在您的上下文中相关的单词,并避免与 BERT 的原始词汇一起发生的子词拆分。引用第一次讨论:
只需用您的词汇表替换“[unusedX]”标记即可。由于这些没有被使用,它们被有效地随机初始化。
【讨论】: