【发布时间】:2020-01-15 13:42:24
【问题描述】:
tokenize_texts = [ ['mentioned', 'reviewers', **'episode', 'exactly'**] ]
porter_stemmed_texts = []
for i in range(0, len(tokenize_texts )):
porter_stemmed_text = [nltk.stem.PorterStemmer().stem(word) for word in tokenize_texts[i]]
porter_stemmed_texts.append(porter_stemmed_text)
porter_stemmed_texts
输出:
[ ['mention', 'review', **'episod', 'exactli'**] ]
期望输出:-
[ ['mention', 'review', **'episode', 'exactly'**] ]
这些错误是否正常。我们不能得到 100% 准确的单词吗?
【问题讨论】:
-
您期望词干分析器的输出是什么?另请注意,Snowball (Porter2) 已使 Porter Stemmer 变得非常过时。
标签: python porter-stemmer