【发布时间】:2019-02-06 20:38:52
【问题描述】:
我正在尝试使用 SVM 将大约 5000 条记录和大约 1000 个真值的数据分类为 2 个类。我的代码来自以下示例:
from sklearn import svm
clf = svm.SVC()
clf.fit(X, Y)
所以我使用了大部分默认值。方差对我来说非常高。训练准确率超过 95%,而我正在从数据集中提取大约 50 条记录的测试为 50%。
但是,如果我将测试数据的训练大小更改为大约 3000 和 2000 条记录,那么训练准确度会下降到 80%,而测试准确度会上升。为什么会这样?
现在,如果我将 scikit-learn 库更改为逻辑回归,那么百分比将保持不变。为什么会这样?
【问题讨论】:
标签: scikit-learn svm variance