【发布时间】:2013-03-25 10:17:12
【问题描述】:
我现在正在做文本分类。 TF-IDF 是否存在比使用词频向量更糟糕的情况?怎么解释? 谢谢
【问题讨论】:
标签: nlp mahout tf-idf term-document-matrix
我现在正在做文本分类。 TF-IDF 是否存在比使用词频向量更糟糕的情况?怎么解释? 谢谢
【问题讨论】:
标签: nlp mahout tf-idf term-document-matrix
这两个指标...在两个维度上进行区分 - 信息性 (IDF) 和关于性 (TF)
包含数百次出现的某些高 IDF 术语的文档将被删除 导致糟糕,嘈杂的比赛......在前。垃圾文件
一本好书 - Beyond bags of words,(Donald A. Metzler Jr. 2007)
【讨论】: