【问题标题】:Multiple Naive Bayes classifiers多个朴素贝叶斯分类器
【发布时间】:2017-09-14 09:25:55
【问题描述】:

我正在考虑为评论网站实施 Naive Byes 分类器,以识别垃圾评论并有几个问题。

  1. 我突然想到有多种类型的垃圾邮件,例如与他们正在审查的内容无关的彻头彻尾的营销垃圾,以及欺骗性的评论。为不同目的实现多个分类器以便一个更好地进行一般垃圾邮件检测,而另一个学习欺骗性评论是否明智?

  2. 同样徒劳无功,有多个类别的项目正在被审查,所以对于“欺骗性审查”分类器,最好只有一个分类器尝试从所有评论中学习?还是每个类别都有一个分类器会更好,以便它能够学习这些类别中的细微差别?

我知道这些不会是万无一失的,它只是将潜在的评论标记为手动检查,但我只是不清楚最佳设置。

【问题讨论】:

    标签: machine-learning theory naivebayes


    【解决方案1】:

    只要您使用任何足够复杂的算法,您就应该能够使用任何一种方法区分“好”和“坏”数据。如果你用一个模型来做这一切,你只需要增加模型的大小,这样综合模型就可以(在最坏的情况下)建立独立的路径来做出“垃圾邮件”和“欺骗”这两个决策。

    如果您在三个不同的分类上进行训练:良好、垃圾邮件和欺骗性;那么无论哪种方式你都做得很好。但是请注意,您的模型尺寸会更小,单独训练,训练时间也会更短,因为在此过程中会出现更少的不准确猜测。

    另一方面,使用两个模型供以后实际使用可能会减慢检测速度,因为通过第一个模型的每个输出都必须通过第二个模型。对于大多数应用程序来说,这个时间并不是一个重要因素。

    最重要的是,我会从每个类的单独模型开始:实施和培训中的任何问题都会更快地找到并且更容易隔离。

    【讨论】:

      猜你喜欢
      • 2017-01-10
      • 2012-02-11
      • 2011-10-20
      • 2015-01-03
      • 2015-08-27
      • 2018-02-06
      • 2012-07-02
      • 2020-04-22
      相关资源
      最近更新 更多