交叉验证是否足以确保分类算法中没有过度拟合？答案

【问题标题】：Is Cross Validation enough to ensure that there is no Overfitting in a classification algorithm?交叉验证是否足以确保分类算法中没有过度拟合？
【发布时间】：2017-12-28 13:32:48
【问题描述】：

我有一个数据集，其中一个类有 45 个观察值，另一个类有 55 个观察值。此外，我使用了 4 个不同的特征，这些特征之前是通过特征选择过滤器选择的，尽管此过程的结果有些奇怪..

另一方面，由于我在 Matlab 上使用了分类学习器，因此我正在使用交叉验证并从不同的分类器中获得良好的准确度结果（75% 到 85%）。这会确保没有过度拟合吗？或者这可能还有机会？如何保证没有过拟合？

【问题讨论】：

标签： matlab machine-learning classification cross-validation

【解决方案1】：

这实际上取决于您可用的训练数据集。如果您可用的数据没有足够的代表性，那么无论您用于训练和验证的方法如何，您都不会得到一个好的模型。

考虑到这一点，如果您确定您的数据具有代表性（“重要”属性的任何子集的值分布与所有数据的全局集相同），那么交叉验证就足以值得信赖。

【讨论】：