【发布时间】:2012-08-28 12:04:38
【问题描述】:
这些是关于如何计算和减少机器学习中的过度拟合的问题。我认为许多机器学习新手都会有同样的问题,所以我试着用我的例子和问题说清楚,希望这里的答案可以帮助其他人。
我有一个非常小的文本样本,我正在尝试预测与它们相关的值。我已经使用 sklearn 来计算 tf-idf,并将它们插入到回归模型中进行预测。这给了我 26 个具有 6323 个特征的样本 - 不是很多。我知道:
>> count_vectorizer = CountVectorizer(min_n=1, max_n=1)
>> term_freq = count_vectorizer.fit_transform(texts)
>> transformer = TfidfTransformer()
>> X = transformer.fit_transform(term_freq)
>> print X.shape
(26, 6323)
将这 26 个样本的 6323 个特征 (X) 和相关分数 (y) 插入到 LinearRegression 模型中,可以提供良好的预测。这些是使用留一法交叉验证获得的,来自cross_validation.LeaveOneOut(X.shape[0], indices=True):
using ngrams (n=1):
human machine points-off %error
8.67 8.27 0.40 1.98
8.00 7.33 0.67 3.34
... ... ... ...
5.00 6.61 1.61 8.06
9.00 7.50 1.50 7.50
mean: 7.59 7.64 1.29 6.47
std : 1.94 0.56 1.38 6.91
相当不错!使用 ngrams (n=300) 而不是 unigrams (n=1) 会出现类似的结果,这显然是不对的。任何文本中都没有出现 300 个单词,因此预测应该会失败,但它不会:
using ngrams (n=300):
human machine points-off %error
8.67 7.55 1.12 5.60
8.00 7.57 0.43 2.13
... ... ... ...
mean: 7.59 7.59 1.52 7.59
std : 1.94 0.08 1.32 6.61
问题 1: 这可能意味着预测模型对数据过度拟合。我只知道这一点,因为我为我知道不能产生好的结果的 ngrams (n=300) 选择了一个极值。但如果我没有这方面的知识,你通常如何判断模型过度拟合?换句话说,如果使用了合理的度量 (n=1),你怎么知道好的预测是过度拟合的结果,而模型只是运行良好?
问题 2: 防止过拟合(在这种情况下)以确保预测结果好坏的最佳方法是什么?
问题 3: 如果使用LeaveOneOut 交叉验证,模型怎么可能过拟合而得到好的结果?过度拟合意味着预测准确性会受到影响 - 那么为什么它不会影响对被遗漏文本的预测呢?我能想到的唯一原因:在主要为 0 的 tf-idf 稀疏矩阵中,文本之间有很强的重叠,因为很多术语都是 0 - 然后回归认为文本高度相关。
请回答任何问题,即使您不知道所有问题。谢谢!
【问题讨论】:
-
如果模型在训练集上表现很好,但在未知测试集上表现很差,你就过拟合了……
-
它在测试集上的表现并不差。它表现良好。 LeaveOneOut 用于选择测试集和训练集。
-
那么它可能没有过度拟合(如果你只持有一个数据集作为你的非训练集,这可能不是真的)......创建一些新实例来测试它......如果它对全新的过拟合效果不好。如果所有集合都相似,那么它仍然可能过拟合……我通常选择我的训练集并手动选择我的测试集……
-
那么,模型如何使用与文本本身一样大的 ngram 做出准确的预测呢?如果不是过拟合,还能是什么?
-
@Zach:n-grams,只要整个训练样本很可能不会出现在验证样本中,即该特征的值为 0,因此对预测没有任何影响。您的模型可能对它们过度拟合,但交叉验证无法显示。
标签: python numpy machine-learning regression scikit-learn