如何在解码为 [UNK] bert tokenizer 的 vocab.txt 中添加标记答案

【问题标题】：how to add tokens in vocab.txt which decoded as [UNK] bert tokenizer如何在解码为 [UNK] bert tokenizer 的 vocab.txt 中添加标记
【发布时间】：2021-07-25 03:23:24
【问题描述】：

我正在解码来自 bert tokenizer 的标记化标记，它为 € 符号提供 [UNK]。但我尝试在 vocab.txt 文件中添加 ##€ 标记。但它没有反映在预测结果中，与之前的结果相同，它再次给出[UNK]。请让我知道要解决此问题，我是否需要再次微调模型以反映预测的变化。到目前为止，我一直在避免微调，因为它需要 10 多个小时。提前致谢

【问题讨论】：

您能否分享您用于将标记添加到词汇表的代码。您能否提供最小可重复的示例？ (stackoverflow.com/help/minimal-reproducible-example)

标签： python nlp bert-language-model huggingface-transformers huggingface-tokenizers

【解决方案1】：

使用分词器的add_tokens函数来避免未知令牌：

from transformers import BertTokenizer
t = BertTokenizer.from_pretrained('bert-base-uncased')
print(t.tokenize("This is an example with an emoji ?."))
t.add_tokens(['?'])
print(t.tokenize("This is an example with an emoji ?."))

输出：

['this', 'is', 'an', 'example', 'with', 'an', 'em', '##oj', '##i', '[UNK]', '.']
['this', 'is', 'an', 'example', 'with', 'an', 'em', '##oj', '##i', '?', '.']

请记住，您还需要调整模型的大小，以便使用 resize_token_embeddings 将其引入新令牌：

model.resize_token_embeddings(len(t))

【讨论】：

感谢@cronoik 的帮助，我以后一定会尝试这个，但目前，我已经在 vocab.txt 文件中添加了这个词并再次微调了模型。它解决了我的问题。但是你的想法也很好，可以节省时间。
我发现github.com/huggingface/tokenizers/issues/615和medium.com/@pierre_guillou/…可以提供详细的操作方法和工作原理。