【发布时间】:2023-01-03 18:06:09
【问题描述】:
在 NER 任务中,我们希望使用不同的方法(例如 BIO)对句子标记进行分类。但是当标记器将句子划分得更强时,我们不能加入任何子标记。
我想用自定义标记化对“weight 40.5 px”句子进行分类(在此示例中按空格) 但是在标记化之后
tokenizer.convert_ids_to_tokens(tokenizer(['weight', '40.5', 'px'], is_split_into_words=True)['input_ids'])
我有 ['[CLS]', '重量', '40', '.', '5', 'p', '##x', '[SEP]'] 当“40.5”拆分为另一个标记“40”、“.”、“5”时。这对我来说是个问题,因为我想对 3 个标记('weight'、'40.5'、'px')进行分类,但它不会自动合并,因为 '40'、'.'、'5' 看起来不像 '40' , '##.', '##5'.
我能做些什么来解决这个问题?
【问题讨论】:
标签: nlp huggingface-transformers