【发布时间】:2021-07-25 03:23:24
【问题描述】:
我正在解码来自 bert tokenizer 的标记化标记,它为 € 符号提供 [UNK]。但我尝试在 vocab.txt 文件中添加 ##€ 标记。但它没有反映在预测结果中,与之前的结果相同,它再次给出[UNK]。请让我知道要解决此问题,我是否需要再次微调模型以反映预测的变化。到目前为止,我一直在避免微调,因为它需要 10 多个小时。 提前致谢
【问题讨论】:
-
您能否分享您用于将标记添加到词汇表的代码。您能否提供最小可重复的示例? (stackoverflow.com/help/minimal-reproducible-example)
标签: python nlp bert-language-model huggingface-transformers huggingface-tokenizers