【问题标题】:how to fillna the nan value in age feature for the titanic data?如何为泰坦尼克号数据填充年龄特征中的 nan 值?
【发布时间】:2021-02-26 16:10:22
【问题描述】:

我想填充年龄特征中的 nan 值。在大火车数据中,pclass 和登船特征是独立的特征。基于这些特征,我想填充年龄特征的 nan 值。 Pclass - (0,1,2) 唯一值,Embarked - ('S','Q','C') 和目标特征 幸存 - (0,1)

对于 pclass、年龄和目标特征(幸存):

sns.catplot(x='Pclass', y='Age',hue='Survived', data=train)

对于 Embarked、年龄和目标特征(幸存):

sns.catplot(x='Embarked', y='Age',hue='Survived', data=train)

但我不知道哪个更好。请告诉我哪个更好来填充年龄特征的nan值

从训练集中删除小屋特征是正确的,它在 891 中有 204 个非空值。请告诉我

【问题讨论】:

    标签: python machine-learning feature-engineering


    【解决方案1】:

    当我做这个巨大的实验时,我使用了 scikitlearn 库中的线性回归模型来预测丢失的年龄。

    对于机舱,我将所有丢失的数据转换为机舱“M”,因此我仍然可以使用该数据列作为模型的输入。最终提高了我的分数。

    您也可以尝试只输入每个“Pclass”的平均或中位年龄,然后用它来填充年龄。我相信这也行得通。

    【讨论】:

    • 这不是回归算法,而是分类算法,因为目标特征(幸存)包含 0 和 1 个类别。
    • 如果你试图预测年龄,这是回归。我同意整体算法是用于预测是否存活的分类,如果这就是你的意思。
    • train['Age']=train['Age'].fillna(train['Age'].median()) 或者我可以根据 pclass 填充 nan 值
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-03-01
    • 2020-10-25
    • 2017-06-27
    • 2021-11-10
    • 2016-06-19
    • 2022-01-03
    • 2021-07-29
    相关资源
    最近更新 更多