贝叶斯垃圾邮件过滤 - 计算单词出现在垃圾邮件/火腿中的概率答案

【问题标题】：Bayes spam filtering - count probability that word occurs in spam / ham贝叶斯垃圾邮件过滤 - 计算单词出现在垃圾邮件/火腿中的概率
【发布时间】：2016-03-17 17:19:34
【问题描述】：

假设我有两个数据集 - 垃圾邮件和普通邮件示例（例如 1000 条垃圾邮件和 800 条普通邮件）。

“免费”一词出现在 700 条垃圾邮件和 200 条垃圾邮件中。 但在某些消息中出现的次数更多。这有关系吗？

【问题讨论】：

标签： filter spam bayesian

【解决方案1】：

答案是：视情况而定。你没有说这种情况发生的频率。

如果您有 1000 条消息，其中 900 条出现“免费”一词，那么它似乎很常见（出现在所有消息的 90% 中）。但是，如果该词在一条消息中不经常出现多次，那就更有用了。在您的项目早期，挑选出一个特定的词不太可能有帮助。

查找 tf-idf（词频，逆文档频率）。这里的想法是，当单词在一个文档中出现多次时，您的权重会增加，而当它们出现在很多文档中时，您的权重会降低。

另外，根据你的数字，你有所谓的阶级不平衡。一个简单地 100% 猜测垃圾邮件的分类器可以很好地处理您的示例数据 - 至少 70% 的时间是正确的。

【讨论】：