【发布时间】:2019-07-25 16:41:33
【问题描述】:
当我使用英语的默认标记器创建管道时,我可以调用添加特殊情况的方法:
tokenizer.add_special_case("don't", case)
分词器很乐意接受包含空格的特殊情况:
tokenizer.add_special_case("some odd case", case)
但它似乎并没有真正改变分词器的行为或者永远不会匹配?
更一般地说,扩展现有标记器的最佳方法是什么,以便通常会导致多个标记的某些模式只创建一个标记?例如,[A-Za-z]+\([A-Za-z0-9]+\)[A-Za-z]+ 之类的东西不应该因为括号而导致三个标记,而是一个标记,例如对于 asdf(a33b)xyz,如果该模式不匹配,则仍应适用正常的英语规则。
这是否可以通过扩充现有的分词器以某种方式完成,还是我必须先进行分词,然后找到与相应令牌模式匹配的实体,然后合并实体令牌?
【问题讨论】:
标签: spacy