【问题标题】:Random Forest performing much better than other methods随机森林的表现比其他方法好得多
【发布时间】:2020-03-16 08:33:42
【问题描述】:

在评估 SVM、RF 和 DT (max_depth = 3) 的性能时,我使用 RF 模型获得了非常出色的结果。被建模的数据是真实世界的数据。由于数据集不平衡,它们都使用分层交叉验证进行评估。

对于之前看到的 4 个不同类别,我得到了精度、召回率和 F1 的这些分数。

最初,数据集包含以下 4 个类的 values_counts:

  1. 进料故障-(Diff. P-set/P-actual): 4 098 个数据样本
  2. 喂料故障-(喂料安全电路故障):383个数据样本
  3. 发电机加热: 228 668 个数据样本
  4. 其他: 51 966 851 个样本

RF 怎么会比 SVM 和 DT 好这么多?

提前致谢!

【问题讨论】:

    标签: python machine-learning scikit-learn svm


    【解决方案1】:

    这些结果是完全合理的!随机森林是比决策树更强大的算法,因为它基本上是 DT 的集合。当涉及到对看不见的数据的泛化时,集成(更多模型的组合)在机器学习中的强大是出了名的。在决策树或 SVM 过拟合的情况下,随机森林通常表现相对较好,因为在内部,许多 DT 看到所有不同的特征集都会为结果投票。

    【讨论】:

      猜你喜欢
      • 2021-05-20
      • 2017-03-15
      • 2021-06-01
      • 2018-07-10
      • 2018-06-22
      • 2016-08-10
      • 2017-05-03
      • 2014-10-26
      • 2013-06-26
      相关资源
      最近更新 更多