【发布时间】:2016-03-17 17:19:34
【问题描述】:
假设我有两个数据集 - 垃圾邮件和普通邮件示例(例如 1000 条垃圾邮件和 800 条普通邮件)。
“免费”一词出现在 700 条垃圾邮件和 200 条垃圾邮件中。 但在某些消息中出现的次数更多。这有关系吗?
【问题讨论】:
假设我有两个数据集 - 垃圾邮件和普通邮件示例(例如 1000 条垃圾邮件和 800 条普通邮件)。
“免费”一词出现在 700 条垃圾邮件和 200 条垃圾邮件中。 但在某些消息中出现的次数更多。这有关系吗?
【问题讨论】:
答案是:视情况而定。你没有说这种情况发生的频率。
如果您有 1000 条消息,其中 900 条出现“免费”一词,那么它似乎很常见(出现在所有消息的 90% 中)。但是,如果该词在一条消息中不经常出现多次,那就更有用了。在您的项目早期,挑选出一个特定的词不太可能有帮助。
查找 tf-idf(词频,逆文档频率)。这里的想法是,当单词在一个文档中出现多次时,您的权重会增加,而当它们出现在很多文档中时,您的权重会降低。
另外,根据你的数字,你有所谓的阶级不平衡。一个简单地 100% 猜测垃圾邮件的分类器可以很好地处理您的示例数据 - 至少 70% 的时间是正确的。
【讨论】: