区分过拟合与良好预测答案

【问题标题】：Distinguishing overfitting vs good prediction区分过拟合与良好预测
【发布时间】：2012-08-28 12:04:38
【问题描述】：

这些是关于如何计算和减少机器学习中的过度拟合的问题。我认为许多机器学习新手都会有同样的问题，所以我试着用我的例子和问题说清楚，希望这里的答案可以帮助其他人。

我有一个非常小的文本样本，我正在尝试预测与它们相关的值。我已经使用 sklearn 来计算 tf-idf，并将它们插入到回归模型中进行预测。这给了我 26 个具有 6323 个特征的样本 - 不是很多。我知道：

>> count_vectorizer = CountVectorizer(min_n=1, max_n=1)
>> term_freq = count_vectorizer.fit_transform(texts)
>> transformer = TfidfTransformer()
>> X = transformer.fit_transform(term_freq) 
>> print X.shape

(26, 6323)

将这 26 个样本的 6323 个特征 (X) 和相关分数 (y) 插入到 LinearRegression 模型中，可以提供良好的预测。这些是使用留一法交叉验证获得的，来自cross_validation.LeaveOneOut(X.shape[0], indices=True)：

using ngrams (n=1):
     human  machine  points-off  %error
      8.67    8.27    0.40       1.98
      8.00    7.33    0.67       3.34
      ...     ...     ...        ...
      5.00    6.61    1.61       8.06
      9.00    7.50    1.50       7.50
mean: 7.59    7.64    1.29       6.47
std : 1.94    0.56    1.38       6.91

相当不错！使用 ngrams (n=300) 而不是 unigrams (n=1) 会出现类似的结果，这显然是不对的。任何文本中都没有出现 300 个单词，因此预测应该会失败，但它不会：

using ngrams (n=300):
      human  machine  points-off  %error
       8.67    7.55    1.12       5.60
       8.00    7.57    0.43       2.13
       ...     ...     ...        ...
mean:  7.59    7.59    1.52       7.59
std :  1.94    0.08    1.32       6.61

问题 1： 这可能意味着预测模型对数据过度拟合。我只知道这一点，因为我为我知道不能产生好的结果的 ngrams (n=300) 选择了一个极值。但如果我没有这方面的知识，你通常如何判断模型过度拟合？换句话说，如果使用了合理的度量 (n=1)，你怎么知道好的预测是过度拟合的结果，而模型只是运行良好？

问题 2： 防止过拟合（在这种情况下）以确保预测结果好坏的最佳方法是什么？

问题 3： 如果使用LeaveOneOut 交叉验证，模型怎么可能过拟合而得到好的结果？过度拟合意味着预测准确性会受到影响 - 那么为什么它不会影响对被遗漏文本的预测呢？我能想到的唯一原因：在主要为 0 的 tf-idf 稀疏矩阵中，文本之间有很强的重叠，因为很多术语都是 0 - 然后回归认为文本高度相关。

请回答任何问题，即使您不知道所有问题。谢谢！

【问题讨论】：

如果模型在训练集上表现很好，但在未知测试集上表现很差，你就过拟合了……
它在测试集上的表现并不差。它表现良好。 LeaveOneOut 用于选择测试集和训练集。
那么它可能没有过度拟合（如果你只持有一个数据集作为你的非训练集，这可能不是真的）......创建一些新实例来测试它......如果它对全新的过拟合效果不好。如果所有集合都相似，那么它仍然可能过拟合……我通常选择我的训练集并手动选择我的测试集……
那么，模型如何使用与文本本身一样大的 ngram 做出准确的预测呢？如果不是过拟合，还能是什么？
@Zach：n-grams，只要整个训练样本很可能不会出现在验证样本中，即该特征的值为 0，因此对预测没有任何影响。您的模型可能对它们过度拟合，但交叉验证无法显示。

标签： python numpy machine-learning regression scikit-learn

【解决方案1】：

您通常如何判断模型过度拟合？

One useful rule of thumb 是，当您的模型在其自己的训练集上的性能远优于在其保留验证集或交叉验证设置中的性能时，您可能会过度拟合。不过，这还不是全部。

我链接到的博客文章描述了测试过拟合的过程：绘制训练集和验证集误差作为训练集大小的函数。如果它们在图的右端显示出稳定的间隙，则可能是过度拟合。

防止过度拟合（在这种情况下）以确保预测结果好坏的最佳方法是什么？

使用保留测试集。仅在您完全完成模型选择（超参数调整）后才对这个集合进行评估；不要训练它，不要在（交叉）验证中使用它。你在测试集上得到的分数就是模型的最终评价。这应该显示您是否不小心过度拟合了验证集。

[机器学习会议有时会像比赛一样设置，直到研究人员将最终模型交付给组织者之后才将测试集提供给研究人员。同时，他们可以随意使用训练集，例如通过使用交叉验证测试模型。 Kaggle 做了类似的事情。]

如果使用LeaveOneOut交叉验证，模型怎么可能过拟合得到好的结果？

因为您可以在此交叉验证设置中尽可能多地调整模型，直到它在 CV 中表现得几乎完美。

作为一个极端示例，假设您已经实现了一个本质上是随机数生成器的估算器。您可以继续尝试随机种子，直到您找到一个在交叉验证中产生非常低错误的“模型”，但这并不是您找到了正确的模型。这意味着你已经过度适应了交叉验证。

另见this interesting warstory。

【讨论】：