【问题标题】:Is there any situation the TF-IDF is worse that using term-frequency vectors?TF-IDF 是否存在比使用词频向量更糟糕的情况?
【发布时间】:2013-03-25 10:17:12
【问题描述】:

我现在正在做文本分类。 TF-IDF 是否存在比使用词频向量更糟糕的情况?怎么解释? 谢谢

【问题讨论】:

    标签: nlp mahout tf-idf term-document-matrix


    【解决方案1】:

    这两个指标...在两个维度上进行区分 - 信息性 (IDF) 和关于性 (TF)

    包含数百次出现的某些高 IDF 术语的文档将被删除 导致糟糕,嘈杂的比赛......在前。垃圾文件

    一本好书 - Beyond bags of words,(Donald A. Metzler Jr. 2007)

    【讨论】:

    • 对不起,我不明白区分信息性(IDF)和关于性(TF)如何解释?谢谢
    • 如果一个词在文档中出现的频率非常高,可以说该文档在一定程度上与该词有关(TF) 考虑在很多文档中遇到的常见词噪音(例如:the, this, ...)它们不会给文档带来新信息或很少(IDF)。花一些时间阅读链接的文章,这将使您对此事有更好的看法。在大多数情况下,TF-IDF 的组合优于单独的 TF。这些都是可以应用于术语向量的术语加权方案。干杯
    • @IonCojocaru 我有相反的问题...... IDF 是否比 TF-IDF 更好?据我了解,TF 对文档中的单词赋予权重以将该文档与预定义的查询匹配非常重要。如果我只想在没有任何特定 IR 目的的情况下对文档集合中单词的重要性进行排序,我为什么要使用 TF 术语?
    猜你喜欢
    • 1970-01-01
    • 2016-11-07
    • 2023-02-02
    • 2019-01-10
    • 2021-02-28
    • 2016-12-01
    • 2012-02-29
    • 2018-09-27
    • 2014-12-14
    相关资源
    最近更新 更多