【发布时间】:2014-08-30 02:35:48
【问题描述】:
我尝试了所有用于词干提取的 nltk 方法,但它给了我一些奇怪的结果。
例子
它经常在不应该这样做的时候切断词尾:
- 贵宾犬 => 贵宾犬
- 文章文章
或者干得不太好:
- easy 和 easy 不是同一个词
- 叶子,生长,几乎没有茎
你知道python中的其他词干库,还是一本好的词典?
谢谢
【问题讨论】:
-
这些结果并不奇怪,因为
stemming是将屈折(或有时派生)的词减少到其词干、基本或词根形式的过程——通常是书面词形式。更多详情,请查看here -
btw NLTK 是构建 Python 程序以处理人类语言数据的最佳平台。
-
您可能只要求提供英语词干分析器,对吧?