具有“年龄”特征的二元分类数据集，其中一些值缺失答案

【问题标题】：A binary classification dataset with a 'age' feature whose some of values are missing具有“年龄”特征的二元分类数据集，其中一些值缺失
【发布时间】：2016-11-15 19:25:23
【问题描述】：

这个分类问题有 300000 个元组和 20 个特征。我想使用 SVM 算法来解决这个问题。 'age' 特征在 1 到 100 之间，但是一些元组的这个特征是缺失的并且是空白的。我该如何解决。

【问题讨论】：

有多少行不完整？

标签： machine-learning svm libsvm missing-data feature-extraction

【解决方案1】：

这当然取决于您的缺失变量的分布，但我会尝试插补 - 尝试使用平均年龄值填充空白，看看您会得到什么样的结果。更进一步的步骤是创建一个模型，在给定其他输入变量的情况下预测年龄并将其用于插补。

您还可以添加一个变量来指示给定行具有一些估算值 - 这在某些情况下会产生更好的训练结果，因为您可以为算法提供更多信息。

【讨论】：

【解决方案2】：

除了@dratewka 已经提到的简单插补，我建议尝试一下：

使用经典的插补机制来插补特征，例如K 最近邻插补。这样，对于缺少age 的样本S，那些最接近S 的K 个样本被用来推导出一个合适的值来估算age（用所有测量的K 个邻居到S 的距离）其他功能）。
执行上一步后，使用age 尝试您的预测，并忽略它。如果您发现您的预测性能不受age 的影响，那么首先完全忽略这些信息也是合理的。

【讨论】：