【发布时间】:2013-05-24 23:07:41
【问题描述】:
在 weka 中,我如何检查诱导树是否过拟合训练数据?
编辑:
所以现在这些是我的 随机森林 分类器基于大型训练集和小得多的验证集(根据大型训练集的类比动态生成)构建的结果。
您说如果存在过拟合,测试集(我称之为验证集)的性能会下降很多吗?但在这种情况下,它似乎并没有下降太多。
大型训练集(25000 条记录)
=== Evaluation on training set ===
=== Summary ===
Correctly Classified Instances 24849 99.3563 %
Incorrectly Classified Instances 161 0.6437 %
Kappa statistic 0.9886
Mean absolute error 0.0344
Root mean squared error 0.0887
Relative absolute error 30.31 %
Root relative squared error 37.2327 %
Total Number of Instances 25010
验证集(IID?)(5000 条记录)
=== Evaluation on training set ===
=== Summary ===
Correctly Classified Instances 4951 99.02 %
Incorrectly Classified Instances 49 0.98 %
Kappa statistic 0.9827
Mean absolute error 0.0402
Root mean squared error 0.0999
Relative absolute error 35.269 %
Root relative squared error 41.8963 %
Total Number of Instances 5000
【问题讨论】:
标签: machine-learning weka