【发布时间】:2018-05-10 16:31:07
【问题描述】:
我使用 Pandas 的 DataFrame.corr() 方法。结果,它返回相关矩阵,但它删除了甚至是一个 Nan 值的列。可以用 Nan 计算 DataFrame 中的相关性吗?
【问题讨论】:
标签: python pandas dataframe nan correlation
我使用 Pandas 的 DataFrame.corr() 方法。结果,它返回相关矩阵,但它删除了甚至是一个 Nan 值的列。可以用 Nan 计算 DataFrame 中的相关性吗?
【问题讨论】:
标签: python pandas dataframe nan correlation
试试这个。就我而言,它有效
df = df.apply(pd.to_numeric, errors='coerce')
【讨论】:
你必须先去掉 NaN 值:
df2=df.dropna()
或者用平均值替换它们:
df2 = df.fillna(df.mean())
或者使用像 EM(期望最大化)这样的算法进行插补。
然后你检查相关性
df2.corr()
注意:如果给定变量的缺失值率大于 15%,您应该考虑将其从分析中删除
【讨论】: