【发布时间】:2020-04-06 07:42:56
【问题描述】:
list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True))
给出结果:
['you', 'he', 'she', 'it', 'we', 'you', 'they']
正常吗?有没有它跳过的单词?我应该使用另一个分词器吗?
额外问题: “deacc=True”参数是什么意思?
【问题讨论】:
-
这在documentation中有说明,大家应该养成阅读的习惯。
-
谢谢,原来是min_len参数默认设置为2,很好,非常感谢!
标签: python nlp tokenize gensim