如何更改标记化（huggingface）？答案

【问题标题】：How to change tokenization (huggingface)?如何更改标记化（huggingface）？
【发布时间】：2023-01-03 18:06:09
【问题描述】：

在 NER 任务中，我们希望使用不同的方法（例如 BIO）对句子标记进行分类。但是当标记器将句子划分得更强时，我们不能加入任何子标记。

我想用自定义标记化对“weight 40.5 px”句子进行分类（在此示例中按空格）但是在标记化之后

tokenizer.convert_ids_to_tokens(tokenizer(['weight', '40.5', 'px'], is_split_into_words=True)['input_ids'])

我有 ['[CLS]', '重量', '40', '.', '5', 'p', '##x', '[SEP]'] 当“40.5”拆分为另一个标记“40”、“.”、“5”时。这对我来说是个问题，因为我想对 3 个标记（'weight'、'40.5'、'px'）进行分类，但它不会自动合并，因为 '40'、'.'、'5' 看起来不像 '40' , '##.', '##5'.

我能做些什么来解决这个问题？

【问题讨论】：

标签： nlp huggingface-transformers

【解决方案1】：

您可以通过“offset_mapping”获得原始文本和标记化标记之间的关系

【讨论】：