【发布时间】:2012-07-17 10:52:31
【问题描述】:
在运行nltk.stem.porter.PorterStemmer().stem_word(word) 之后,我得到了许多带有 'ing' 截断或 'y' 与 'i' 交换的单词。例如“质量”变成了“质量”,(甚至更陌生的)“价值”变成了“价值”?
由于生成的单词不是实际的英文单词,我不确定我应该如何使用它们?我最好的猜测是,我打算将词干放入另一个函数中,该函数将为我提供来自该词干的所有派生/子词(例如,“值”将返回 ['valuing','valued', 'values', ...]。有这样的函数吗?
【问题讨论】:
-
您是否尝试对这些词进行词形还原?结果如何?
-
所问内容的术语是lexeme。所以更好的做法是获取原始的预词干词并通过这样的函数而不是词干版本来运行它以获取该词的所有词位。