【问题标题】:How to determine correlation from dataframe with Nan?如何确定数据帧与 Nan 的相关性?
【发布时间】:2018-05-10 16:31:07
【问题描述】:

我使用 Pandas 的 DataFrame.corr() 方法。结果,它返回相关矩阵,但它删除了甚至是一个 Nan 值的列。可以用 Nan 计算 DataFrame 中的相关性吗?

【问题讨论】:

    标签: python pandas dataframe nan correlation


    【解决方案1】:

    试试这个。就我而言,它有效

     df = df.apply(pd.to_numeric, errors='coerce')
    

    【讨论】:

      【解决方案2】:

      你必须先去掉 NaN 值:

      df2=df.dropna()
      

      或者用平均值替换它们:

      df2 = df.fillna(df.mean())
      

      或者使用像 EM(期望最大化)这样的算法进行插补。

      然后你检查相关性

      df2.corr()
      

      注意:如果给定变量的缺失值率大于 15%,您应该考虑将其从分析中删除

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2019-04-26
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2021-09-20
        • 1970-01-01
        • 1970-01-01
        • 2011-09-21
        相关资源
        最近更新 更多