【问题标题】:MNIST dataset with Sklearn带有 Sklearn 的 MNIST 数据集
【发布时间】:2020-03-12 18:21:37
【问题描述】:

我在 MNIST 数据集上训练线性模型,但我只想训练一个数字,即 4。如何选择我的 X_test、X_train、y_test、y_train?

【问题讨论】:

    标签: python mnist sklearn-pandas


    【解决方案1】:

    如果你只需要识别4s,这是一个二元分类问题,所以你只需要创建一个新的目标变量:如果class是4,Y=1,如果class不是4,Y=0。

  • Train_X 将保持不变
  • Train_Y 将成为与 Train_X 相关的新目标变量
  • Test_X 将保持不变
  • Test_Y 将成为与 Test_X 相关的新目标变量。

    数据会有点不平衡,但应该不是问题!

  • 【讨论】:

      【解决方案2】:

      您的分类器需要学会区分不同类别的集合。 如果您只关心数字 4,则应将训练集和测试集拆分为:

      • 4 类实例
      • 非 4 类实例:所有其他数字的并集

      否则,训练/测试拆分仍然是典型的拆分,您希望没有重叠。

      【讨论】:

        猜你喜欢
        • 2020-07-08
        • 1970-01-01
        • 2017-11-30
        • 2020-03-12
        • 2019-04-01
        • 2018-05-13
        • 2018-04-29
        • 2021-10-05
        • 2020-03-18
        相关资源
        最近更新 更多