【问题标题】:Weka - How do I check if there is overfitting in weka?Weka - 如何检查 weka 中是否存在过度拟合?
【发布时间】:2013-05-24 23:07:41
【问题描述】:

在 weka 中,我如何检查诱导树是否过拟合训练数据?

编辑:

所以现在这些是我的 随机森林 分类器基于大型训练集和小得多的验证集(根据大型训练集的类比动态生成)构建的结果。

您说如果存在过拟合,测试集(我称之为验证集)的性能会下降很多吗?但在这种情况下,它似乎并没有下降太多。

大型训练集(25000 条记录)

=== Evaluation on training set ===
=== Summary ===

Correctly Classified Instances       24849               99.3563 %
Incorrectly Classified Instances       161                0.6437 %
Kappa statistic                          0.9886
Mean absolute error                      0.0344
Root mean squared error                  0.0887
Relative absolute error                 30.31   %
Root relative squared error             37.2327 %
Total Number of Instances            25010     

验证集(IID?)(5000 条记录)

=== Evaluation on training set ===
=== Summary ===

Correctly Classified Instances        4951               99.02   %
Incorrectly Classified Instances        49                0.98   %
Kappa statistic                          0.9827
Mean absolute error                      0.0402
Root mean squared error                  0.0999
Relative absolute error                 35.269  %
Root relative squared error             41.8963 %
Total Number of Instances             5000     

【问题讨论】:

    标签: machine-learning weka


    【解决方案1】:

    如果我没有错,那么上面显示的关于准确性的输出结果是指在完整数据集(训练)上评估您的分类器,而不是对任何测试数据进行分类,以获得完整的准确性结果您需要使用训练/测试拆分,或者您可以使用外部测试拆分,这将为分类器的结果提供一些更好的想法。

    【讨论】:

      【解决方案2】:

      简单。使用完全独立的测试集。也就是说,使用不包含与训练集相同的实例的测试集。请勿不要对您的训练数据使用交叉验证或任何其他测试方法。

      注意:默认情况下,Weka 的决策树使用剪枝。也就是说,他们试图概括树(阅读:防止过度拟合),当没有统计上的充分理由来制作额外的决策节点时,通过使用统计技术在到达真正的叶节点之前修剪树. 真正知道决策树是否过度拟合您的训练数据的唯一方法是检查 IID 测试集。如果您过拟合,那么在对训练集进行交叉验证或其他测试时会得到很好的结果,但在单独的 IID 测试数据上进行测试时会得到糟糕的结果.

      【讨论】:

      • 谢谢伙计,这确实解释了,但还是不太清楚。我已经用附加信息编辑了我的问题。
      • “不要对训练数据使用交叉验证或任何其他测试方法。” - 只有一句话,在交叉验证中,你永远不会测试训练数据。
      猜你喜欢
      • 2013-08-24
      • 2011-03-14
      • 2013-08-09
      • 2012-07-01
      • 1970-01-01
      • 2017-04-05
      • 1970-01-01
      • 2020-06-21
      • 2014-06-01
      相关资源
      最近更新 更多