【发布时间】:2020-09-18 10:51:00
【问题描述】:
假设我的学习曲线是sklearn learning curve SVM。而且我还在进行 5 折交叉验证,据我了解,这意味着将您的 训练 数据分成 5 份,对其中的四个进行训练并在最后一个上进行测试。
所以我的问题是,由于LearningCurve中的每个数据点,训练集的大小都是不同的(因为我们想看看模型随着数据量的增加会如何表现),那么交叉-在这种情况下验证工作?它仍然将整个训练集分成 5 个相等的部分吗?还是将当前点训练集分成五个不同的小块,然后计算测试分数?是否可以获得每个数据点的混淆矩阵? (即真阳性、真阴性等)。我还没有看到基于 sklearn 学习曲线代码的方法。
交叉验证的折叠次数与我们在train_sizes = np.linspace(0.1, 1.0, 5) 中拆分多少训练集有关吗?
train_sizes, train_scores, test_scores, fit_times, _ = learning_curve(estimator,
X, y, cv,
n_jobs, scoring,
train_sizes)
谢谢!
【问题讨论】:
标签: python machine-learning scikit-learn