【发布时间】:2012-05-14 21:49:19
【问题描述】:
词频 (TF) 和逆文档频率 (IDF) 如何受到停用词移除和词干提取的影响?
谢谢!
【问题讨论】:
标签: data-mining text-processing tf-idf stop-words stemming
词频 (TF) 和逆文档频率 (IDF) 如何受到停用词移除和词干提取的影响?
谢谢!
【问题讨论】:
标签: data-mining text-processing tf-idf stop-words stemming
tf 是词频 idf 是逆文档频率,它是通过将文档总数除以包含该术语的文档数,然后取该商的对数得出的。
stemming 效果是将源自同一词干的所有单词分组(例如:played、play、..),这种分组将增加该词干的出现率,因为频率是使用词干计算的,而不是字, 例如,如果您有 2 个文档: 第一个包含 'play' 2 次和 'played' 5 次, 第二个文档包含 'play' 3 次和 'played' 1 次 如果你在没有词干的情况下搜索“play”,第二个文档将是第一个,因为它出现了更多的“play”这个词,而如果你做词干,两个词在词干后都将是“play”,第一个文档将是首先是因为它包含 stem 播放 7 次,第二个文档包含 stem 播放 4 次。
关于停用词的去除,它在所有文档中都经常出现,并且不被视为任何一个关键字,它会在没有任何场景的情况下具有很高的频率。
【讨论】: