【发布时间】:2021-12-23 13:05:16
【问题描述】:
我正在使用 HuggingFace 转换器 AutoTokenizer 来标记小段文本。但是,这种标记化在单词中间不正确地拆分并将 # 字符引入标记。我尝试了几种不同的模型,结果相同。
这是一段文本的示例以及从中创建的标记。
CTO at TLR Communications Pty Ltd
['[CLS]', 'CT', '##O', 'at', 'T', '##LR', 'Communications', 'P', '##ty', 'Ltd', '[SEP]']
这是我用来生成令牌的代码
tokenizer = AutoTokenizer.from_pretrained("tokenizer_bert.json")
tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(sequence)))
【问题讨论】:
-
变形金刚使用
subword tokenization。您可以在线阅读。
标签: python huggingface-transformers huggingface-tokenizers