【发布时间】:2021-01-09 02:38:15
【问题描述】:
假设我正在使用tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True),我在微调新模型期间使用该标记器所做的只是标准tokenizer.encode()
我在大多数地方都看到人们在保存模型的同时保存该标记器,但我不清楚为什么需要保存,因为它似乎是一个开箱即用的标记器,没有在训练期间以任何方式进行修改。
【问题讨论】:
标签: save pytorch bert-language-model huggingface-tokenizers