在分类案例研究中识别冗余列/变量答案

【问题标题】：Identification of redundant columns/variables in a classification case study在分类案例研究中识别冗余列/变量
【发布时间】：2021-01-30 04:19:41
【问题描述】：

我有一个包含 13 列（分类和数字）的数据库。第 13 列是分类变量 SalStat，它对人低于 50k 或高于 50k 的天气进行分类。我在这种情况下使用逻辑回归，并想知道哪些列（数值和分类）是多余的，即不影响 SalStat，以便我可以删除它们。为此我应该使用什么函数？

【问题讨论】：

这里是 scikit learn 中的特征选择方法列表，你可以从哪里开始scikit-learn.org/stable/modules/feature_selection.html

标签： python classification logistic-regression

【解决方案1】：

在我看来，您可以研究变量之间的相关性并删除具有高相关性的变量，因为它们在某种程度上为您的模型提供了相同数量的信息您可以从 DataFrame.corr() 之类的东西开始，然后使用 seaborn 绘制热图以实现更好的可视化 seaborn.heatmap() 或更简单的 plt.imshow(data.corr()) plt.colorbar();

【讨论】：