【问题标题】:What is the set of negative data points for each classifier when using OneVsRest classification in scikit-learn?在 scikit-learn 中使用 OneVsRest 分类时,每个分类器的负数据点集是多少?
【发布时间】:2020-03-17 00:45:10
【问题描述】:

我正在尝试使用 sklearn.linear_model.LogisticRegression(multiclass='ovr') 训练 OneVsAll 多类逻辑回归模型。我的数据集有 1000 多个类和 200 万个训练示例。

据我了解,这种方法将训练 1000 个不同的分类器,每个类别一个。这样做时,每个类的正例集很容易识别。但是每个分类器的负例集是什么?负例集是否 = 我的整个训练数据中的所有其他数据点?这不会造成不平衡问题并降低每个单独分类器的有效性吗?

【问题讨论】:

标签: machine-learning scikit-learn multiclass-classification imbalanced-data


【解决方案1】:

负例集是否 = 我的整个训练数据中的所有其他数据点?

是的。

这不会造成不平衡问题并降低每个单独分类器的有效性吗?

是的,根据Bishop, Christopher M. (2006). "Pattern Recognition and Machine Learning". Springer, p. 338,这是这种启发式的问题之一。如果这在您的特定情况下严重降低了性能,您可以考虑other strategies

【讨论】:

    猜你喜欢
    • 2012-05-18
    • 2015-08-23
    • 2012-11-11
    • 2020-01-04
    • 1970-01-01
    • 2018-04-02
    • 2016-10-17
    • 2014-02-04
    相关资源
    最近更新 更多