【发布时间】:2021-07-28 11:05:25
【问题描述】:
我正在尝试在预训练的 HuggingFace Transformers 模型的词汇表中添加一些新词。我做了以下改变分词器的词汇并增加了模型的嵌入大小:
tokenizer.add_tokens(['word1', 'word2', 'word3', 'word4'])
model.resize_token_embeddings(len(tokenizer))
print(len(tokenizer)) # outputs len_vocabulary + 4
但是在我的语料库上训练模型并保存后,我发现保存的分词器词汇量没有改变。再次查看后发现,上述代码并没有改变词汇量大小(tokenizer.vocab_size 还是一样),只是改变了len(tokenizer)。
所以现在我的问题是; tokenizer.vocab_size 和 len(tokenizer) 有什么区别?
【问题讨论】:
标签: nlp tokenize huggingface-transformers huggingface-tokenizers