【发布时间】:2021-03-16 14:18:00
【问题描述】:
我有一个示例数据集,我试图找出是否有学生通过考试的强预测因子(其值为 0 或 1)。但是,数据集中混合了连续变量和分类变量(大约 100 列)(如母亲的职业、城市、is_male、is_female 等?有人可以指导我应该选择哪些模型和变量来构建模型吗?
【问题讨论】:
标签: statistics regression linear-regression analytics logistic-regression
我有一个示例数据集,我试图找出是否有学生通过考试的强预测因子(其值为 0 或 1)。但是,数据集中混合了连续变量和分类变量(大约 100 列)(如母亲的职业、城市、is_male、is_female 等?有人可以指导我应该选择哪些模型和变量来构建模型吗?
【问题讨论】:
标签: statistics regression linear-regression analytics logistic-regression
删除具有 0 个观察值的列变量,因为它们对建模无用。也可以删除在所有行上具有单个值的列。 它们都被称为零方差预测器,因为预测器不会发生变化。
使用nunique() 函数汇总每列中唯一值的数量
DataFrame.nunique(axis=0, dropna=True)
使用drop() 删除无用的列。
DataFrame.drop('label', axis=0, inplace=True)
数字属性中的缺失值可以用中位数填充。
将只有两种值的列更改为boolean,如“Mentor_Orgs_Column”中的null 和YD。
检查每个categorical 和numeric 属性对目标属性的影响:
例如:
print(train[["mothersProfession","Pass"]].groupby(['mothersProfession'],as_idex=False).mean())
#Provides impact of 'mothers profession' on training data.
这将有助于找到有助于您预测的属性。
然后,您可以使用 scikit learn 在反复试验的基础上对该数据应用不同的分类器,以获得不同的见解。
【讨论】: