【问题标题】:Identification of redundant columns/variables in a classification case study在分类案例研究中识别冗余列/变量
【发布时间】:2021-01-30 04:19:41
【问题描述】:

我有一个包含 13 列(分类和数字)的数据库。第 13 列是分类变量 SalStat,它对人低于 50k 或高于 50k 的天气进行分类。我在这种情况下使用逻辑回归,并想知道哪些列(数值和分类)是多余的,即不影响 SalStat,以便我可以删除它们。为此我应该使用什么函数?

【问题讨论】:

标签: python classification logistic-regression


【解决方案1】:

在我看来,您可以研究变量之间的相关性并删除具有高相关性的变量,因为它们在某种程度上为您的模型提供了相同数量的信息 您可以从 DataFrame.corr() 之类的东西开始,然后使用 seaborn 绘制热图以实现更好的可视化 seaborn.heatmap() 或更简单的 plt.imshow(data.corr()) plt.colorbar();

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-06-02
    • 2012-01-23
    • 2020-11-08
    • 2020-10-25
    • 1970-01-01
    • 2010-09-25
    • 2019-07-12
    • 1970-01-01
    相关资源
    最近更新 更多