【发布时间】:2015-10-27 01:55:17
【问题描述】:
我使用 Weka 在我的数据集上测试机器学习算法。我有 3800 行和大约 25 个特征。我正在测试预测模型的不同特征的组合,并且似乎预测低于 oneR 算法使用交叉验证所做的预测。即使 C4.5 也不能更好地预测,有时它会,有时它不会基于仍然能够分类的特征。
但是,在某个时刻,我将数据集拆分为测试集和数据集(20/80),并在测试集上对其进行测试,C4.5 算法的准确度远高于我的 OneR 算法。我想,由于数据集的大小,它预测得很好可能只是一个巧合(目标仍然作为目标属性相对分割)。因此,在像这样的小数据集上使用交叉验证更有用。
但是,在另一个测试集上对其进行测试,使用 C4.5 确实为测试集提供了高精度。所以,我的问题实际上是,当数据集实际上非常小时,测试数据集的最佳方法是什么?
我看到了一些讨论它的帖子,但我仍然不确定什么是正确的方法。
【问题讨论】:
-
交叉验证 stats.stackexchange.com 似乎更适合这个问题