在 scikit-learn 中使用 OneVsRest 分类时，每个分类器的负数据点集是多少？答案

【问题标题】：What is the set of negative data points for each classifier when using OneVsRest classification in scikit-learn?在 scikit-learn 中使用 OneVsRest 分类时，每个分类器的负数据点集是多少？
【发布时间】：2020-03-17 00:45:10
【问题描述】：

我正在尝试使用 sklearn.linear_model.LogisticRegression(multiclass='ovr') 训练 OneVsAll 多类逻辑回归模型。我的数据集有 1000 多个类和 200 万个训练示例。

据我了解，这种方法将训练 1000 个不同的分类器，每个类别一个。这样做时，每个类的正例集很容易识别。但是每个分类器的负例集是什么？负例集是否 = 我的整个训练数据中的所有其他数据点？这不会造成不平衡问题并降低每个单独分类器的有效性吗？

【问题讨论】：

也许 SVM 可以帮助你，这对体重不足的课程有一个平衡：scikit-learn.org/stable/modules/svm.html

标签： machine-learning scikit-learn multiclass-classification imbalanced-data

【解决方案1】：

负例集是否 = 我的整个训练数据中的所有其他数据点？

是的。

这不会造成不平衡问题并降低每个单独分类器的有效性吗？

是的，根据Bishop, Christopher M. (2006). "Pattern Recognition and Machine Learning". Springer, p. 338，这是这种启发式的问题之一。如果这在您的特定情况下严重降低了性能，您可以考虑other strategies。

【讨论】：