【问题标题】:Bayes spam filtering - count probability that word occurs in spam / ham贝叶斯垃圾邮件过滤 - 计算单词出现在垃圾邮件/火腿中的概率
【发布时间】:2016-03-17 17:19:34
【问题描述】:

假设我有两个数据集 - 垃圾邮件和普通邮件示例(例如 1000 条垃圾邮件和 800 条普通邮件)。

“免费”一词出现在 700 条垃圾邮件和 200 条垃圾邮件中。 但在某些消息中出现的次数更多。这有关系吗?

【问题讨论】:

    标签: filter spam bayesian


    【解决方案1】:

    答案是:视情况而定。你没有说这种情况发生的频率。

    如果您有 1000 条消息,其中 900 条出现“免费”一词,那么它似乎很常见(出现在所有消息的 90% 中)。但是,如果该词在一条消息中不经常出现多次,那就更有用了。在您的项目早期,挑选出一个特定的词不太可能有帮助。

    查找 tf-idf(词频,逆文档频率)。这里的想法是,当单词在一个文档中出现多次时,您的权重会增加,而当它们出现在很多文档中时,您的权重会降低。

    另外,根据你的数字,你有所谓的阶级不平衡。一个简单地 100% 猜测垃圾邮件的分类器可以很好地处理您的示例数据 - 至少 70% 的时间是正确的。

    【讨论】:

      猜你喜欢
      • 2010-10-17
      • 2014-05-08
      • 2011-09-21
      • 2010-09-26
      • 2011-02-06
      • 2010-10-08
      • 2010-09-05
      • 2010-10-15
      • 2010-10-20
      相关资源
      最近更新 更多