【问题标题】:Understanding BERT vocab [unusedxxx] tokens:理解 BERT vocab [unusedxxx] 标记:
【发布时间】:2020-10-08 15:29:50
【问题描述】:

我正在尝试理解 BERT 词汇 here。它有 1000 个 [unusedxxx] 令牌。我不遵循这些令牌的用法。我了解 [SEP]、[CLS] 等其他特殊标记,但 [未使用] 用于什么?

谢谢!

【问题讨论】:

    标签: huggingface-transformers


    【解决方案1】:

    快速搜索一下就会发现它的用途,特别是在original BERT implementation 和这个HuggingFace thread 的讨论中。

    如果您想在微调或进一步的预训练过程中引入特定单词,未使用的标记会很有帮助;它们允许您按照自己的意愿处理仅在您的上下文中相关的单词,并避免与 BERT 的原始词汇一起发生的子词拆分。引用第一次讨论:

    只需用您的词汇表替换“[unusedX]”标记即可。由于这些没有被使用,它们被有效地随机初始化。

    【讨论】:

    • 现在更有意义了,非常感谢您简化了文档。
    猜你喜欢
    • 2021-02-10
    • 2021-06-25
    • 1970-01-01
    • 2020-08-10
    • 2021-01-09
    • 2021-07-25
    • 2021-10-20
    • 2021-02-12
    • 2021-06-14
    相关资源
    最近更新 更多