【问题标题】:How to change tokenization (huggingface)?如何更改标记化(huggingface)?
【发布时间】:2023-01-03 18:06:09
【问题描述】:

在 NER 任务中,我们希望使用不同的方法(例如 BIO)对句子标记进行分类。但是当标记器将句子划分得更强时,我们不能加入任何子标记。

我想用自定义标记化对“weight 40.5 px”句子进行分类(在此示例中按空格) 但是在标记化之后

tokenizer.convert_ids_to_tokens(tokenizer(['weight', '40.5', 'px'], is_split_into_words=True)['input_ids'])

我有 ['[CLS]', '重量', '40', '.', '5', 'p', '##x', '[SEP]'] 当“40.5”拆分为另一个标记“40”、“.”、“5”时。这对我来说是个问题,因为我想对 3 个标记('weight'、'40.5'、'px')进行分类,但它不会自动合并,因为 '40'、'.'、'5' 看起来不像 '40' , '##.', '##5'.

我能做些什么来解决这个问题?

【问题讨论】:

    标签: nlp huggingface-transformers


    【解决方案1】:

    您可以通过“offset_mapping”获得原始文本和标记化标记之间的关系

    【讨论】:

      猜你喜欢
      • 2021-02-09
      • 1970-01-01
      • 1970-01-01
      • 2020-08-10
      • 2022-06-29
      • 2022-06-14
      • 2021-05-22
      • 2013-12-22
      • 1970-01-01
      相关资源
      最近更新 更多