给定太多连续变量和分类变量，如何预测结果？ [关闭]答案

【问题标题】：how to predict an outcome given too many continuous and categorical variables? [closed]给定太多连续变量和分类变量，如何预测结果？ [关闭]
【发布时间】：2021-03-16 14:18:00
【问题描述】：

我有一个示例数据集，我试图找出是否有学生通过考试的强预测因子（其值为 0 或 1）。但是，数据集中混合了连续变量和分类变量（大约 100 列）（如母亲的职业、城市、is_male、is_female 等？有人可以指导我应该选择哪些模型和变量来构建模型吗？

这是数据集的样子：

【问题讨论】：

标签： statistics regression linear-regression analytics logistic-regression

【解决方案1】：

删除具有 0 个观察值的列变量，因为它们对建模无用。也可以删除在所有行上具有单个值的列。它们都被称为零方差预测器，因为预测器不会发生变化。

使用nunique() 函数汇总每列中唯一值的数量

DataFrame.nunique(axis=0, dropna=True)

使用drop() 删除无用的列。

DataFrame.drop('label', axis=0, inplace=True)

数字属性中的缺失值可以用中位数填充。将只有两种值的列更改为boolean，如“Mentor_Orgs_Column”中的null 和YD。

检查每个categorical 和numeric 属性对目标属性的影响：

例如：

print(train[["mothersProfession","Pass"]].groupby(['mothersProfession'],as_idex=False).mean())
#Provides impact of 'mothers profession' on training data.

这将有助于找到有助于您预测的属性。然后，您可以使用 scikit learn 在反复试验的基础上对该数据应用不同的分类器，以获得不同的见解。

【讨论】：

感谢维迪亚。您的回答很有帮助，而且中肯。