【问题标题】:how to predict an outcome given too many continuous and categorical variables? [closed]给定太多连续变量和分类变量,如何预测结果? [关闭]
【发布时间】:2021-03-16 14:18:00
【问题描述】:

我有一个示例数据集,我试图找出是否有学生通过考试的强预测因子(其值为 0 或 1)。但是,数据集中混合了连续变量和分类变量(大约 100 列)(如母亲的职业、城市、is_male、is_female 等?有人可以指导我应该选择哪些模型和变量来构建模型吗?

这是数据集的样子:

【问题讨论】:

    标签: statistics regression linear-regression analytics logistic-regression


    【解决方案1】:

    删除具有 0 个观察值的列变量,因为它们对建模无用。也可以删除在所有行上具有单个值的列。 它们都被称为零方差预测器,因为预测器不会发生变化。

    使用nunique() 函数汇总每列中唯一值的数量

    DataFrame.nunique(axis=0, dropna=True)
    

    使用drop() 删除无用的列。

    DataFrame.drop('label', axis=0, inplace=True)
    

    数字属性中的缺失值可以用中位数填充。 将只有两种值的列更改为boolean,如“Mentor_Orgs_Column”中的nullYD

    检查每个categoricalnumeric 属性对目标属性的影响:

    例如:

    print(train[["mothersProfession","Pass"]].groupby(['mothersProfession'],as_idex=False).mean())
    #Provides impact of 'mothers profession' on training data.
    

    这将有助于找到有助于您预测的属性。 然后,您可以使用 scikit learn 在反复试验的基础上对该数据应用不同的分类器,以获得不同的见解。

    【讨论】:

    • 感谢维迪亚。您的回答很有帮助,而且中肯。
    猜你喜欢
    • 1970-01-01
    • 2021-03-23
    • 2019-10-15
    • 2021-08-30
    • 1970-01-01
    • 1970-01-01
    • 2017-11-25
    • 2018-05-23
    • 2018-01-17
    相关资源
    最近更新 更多