【问题标题】:After stemming dataset some of words are showing incorrect way在提取数据集后,某些单词的显示方式不正确
【发布时间】:2020-01-15 13:42:24
【问题描述】:
tokenize_texts = [ ['mentioned', 'reviewers', **'episode', 'exactly'**] ]

porter_stemmed_texts = []
for i in range(0, len(tokenize_texts )):
    porter_stemmed_text = [nltk.stem.PorterStemmer().stem(word) for word in tokenize_texts[i]]
    porter_stemmed_texts.append(porter_stemmed_text)

porter_stemmed_texts

输出:

[ ['mention', 'review', **'episod', 'exactli'**] ]

期望输出:-

[ ['mention', 'review', **'episode', 'exactly'**] ]

这些错误是否正常。我们不能得到 100% 准确的单词吗?

【问题讨论】:

  • 您期望词干分析器的输出是什么?另请注意,Snowball (Porter2) 已使 Porter Stemmer 变得非常过时。

标签: python porter-stemmer


【解决方案1】:

词干分析器正在按预期工作。

“Episode”的词根应该是“episod”,这样它的词根就与“episodic”相同。

"Exactly" -> "Exactli" 是算法中的一个怪癖,但最终并没有什么不同,因为您还应该对要比较的文本进行词干处理,因此它还将包含 '确切地说,曾经有过梗。

【讨论】:

    猜你喜欢
    • 2016-01-19
    • 2015-01-12
    • 2012-04-28
    • 1970-01-01
    • 1970-01-01
    • 2012-06-20
    • 1970-01-01
    • 2022-01-22
    相关资源
    最近更新 更多