多个朴素贝叶斯分类器答案

【问题标题】：Multiple Naive Bayes classifiers多个朴素贝叶斯分类器
【发布时间】：2017-09-14 09:25:55
【问题描述】：

我正在考虑为评论网站实施 Naive Byes 分类器，以识别垃圾评论并有几个问题。

我突然想到有多种类型的垃圾邮件，例如与他们正在审查的内容无关的彻头彻尾的营销垃圾，以及欺骗性的评论。为不同目的实现多个分类器以便一个更好地进行一般垃圾邮件检测，而另一个学习欺骗性评论是否明智？
同样徒劳无功，有多个类别的项目正在被审查，所以对于“欺骗性审查”分类器，最好只有一个分类器尝试从所有评论中学习？还是每个类别都有一个分类器会更好，以便它能够学习这些类别中的细微差别？

我知道这些不会是万无一失的，它只是将潜在的评论标记为手动检查，但我只是不清楚最佳设置。

【问题讨论】：

【解决方案1】：

只要您使用任何足够复杂的算法，您就应该能够使用任何一种方法区分“好”和“坏”数据。如果你用一个模型来做这一切，你只需要增加模型的大小，这样综合模型就可以（在最坏的情况下）建立独立的路径来做出“垃圾邮件”和“欺骗”这两个决策。

如果您在三个不同的分类上进行训练：良好、垃圾邮件和欺骗性；那么无论哪种方式你都做得很好。但是请注意，您的模型尺寸会更小，单独训练，训练时间也会更短，因为在此过程中会出现更少的不准确猜测。

另一方面，使用两个模型供以后实际使用可能会减慢检测速度，因为通过第一个模型的每个输出都必须通过第二个模型。对于大多数应用程序来说，这个时间并不是一个重要因素。

最重要的是，我会从每个类的单独模型开始：实施和培训中的任何问题都会更快地找到并且更容易隔离。

【讨论】：