【问题标题】:A binary classification dataset with a 'age' feature whose some of values are missing具有“年龄”特征的二元分类数据集,其中一些值缺失
【发布时间】:2016-11-15 19:25:23
【问题描述】:

这个分类问题有 300000 个元组和 20 个特征。我想使用 SVM 算法来解决这个问题。 'age' 特征在 1 到 100 之间,但是一些元组的这个特征是缺失的并且是空白的。我该如何解决。

【问题讨论】:

  • 有多少行不完整?

标签: machine-learning svm libsvm missing-data feature-extraction


【解决方案1】:

这当然取决于您的缺失变量的分布,但我会尝试插补 - 尝试使用平均年龄值填充空白,看看您会得到什么样的结果。更进一步的步骤是创建一个模型,在给定其他输入变量的情况下预测年龄并将其用于插补。

您还可以添加一个变量来指示给定行具有一些估算值 - 这在某些情况下会产生更好的训练结果,因为您可以为算法提供更多信息。

【讨论】:

    【解决方案2】:

    除了@dratewka 已经提到的简单插补,我建议尝试一下:

    • 使用经典的插补机制来插补特征,例如K 最近邻插补。这样,对于缺少age 的样本S,那些最接近S 的K 个样本被用来推导出一个合适的值来估算age(用所有测量的K 个邻居到S 的距离)其他功能)。

    • 执行上一步后,使用age 尝试您的预测,并忽略它。如果您发现您的预测性能不受age 的影响,那么首先完全忽略这些信息也是合理的。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-05-25
      • 1970-01-01
      • 2021-11-09
      • 2019-05-21
      • 1970-01-01
      • 2011-02-19
      • 2021-05-23
      相关资源
      最近更新 更多