【发布时间】:2020-03-17 00:45:10
【问题描述】:
我正在尝试使用 sklearn.linear_model.LogisticRegression(multiclass='ovr') 训练 OneVsAll 多类逻辑回归模型。我的数据集有 1000 多个类和 200 万个训练示例。
据我了解,这种方法将训练 1000 个不同的分类器,每个类别一个。这样做时,每个类的正例集很容易识别。但是每个分类器的负例集是什么?负例集是否 = 我的整个训练数据中的所有其他数据点?这不会造成不平衡问题并降低每个单独分类器的有效性吗?
【问题讨论】:
-
也许 SVM 可以帮助你,这对体重不足的课程有一个平衡:scikit-learn.org/stable/modules/svm.html
标签: machine-learning scikit-learn multiclass-classification imbalanced-data