【问题标题】:What does the .corr() method do in Pandas and how does it relate it to the heatmap?Pandas 中的 .corr() 方法有什么作用,它如何与热图相关联?
【发布时间】:2020-04-17 21:30:44
【问题描述】:

我正在使用 jupyter 库做一个关于 EDA 的教程,发现这段代码令人困惑:-

plt.figure(figsize=(10,5))
c = df.corr()
sns.heatmap(c,cmap="BrBG", annot=True)

这里,dataframe 定义为 df。但是,我不明白 df.corr() 的目的以及它与热图的关系。我尝试搜索 df.corr() ,发现它是用来执行成对操作的。

这里是 jupyter 画廊的链接:https://colab.research.google.com/github/Tanu-N-Prabhu/Python/blob/master/Exploratory_data_Analysis.ipynb#scrollTo=dAnd4DSyeHDb

希望能澄清我的问题。

【问题讨论】:

标签: python pandas seaborn


【解决方案1】:

df.corr()计算元素范围为[-1, 1]的相关矩阵,默认使用皮尔逊相关系数。 sns.heatmap 只是一种使用颜色来显示相关性有多强的方法,在这种情况下,绿色表明正相关接近于 1

这只是一种用颜色而不是数字来查看相关性的方法,以便用户可以识别哪些变量的相关性更高。

【讨论】:

  • 感谢您的解释。你能用通俗的话来解释吗?我刚开始学习线性代数,所以矩阵对我来说是一个相对较新的话题。我从您的回答中了解到,它告诉您两个变量之间的相关性。另外,你能告诉我为什么它在解释性数据分析中很重要吗?
  • 这超出了最初的问题,但一般来说,只要变量 X 和变量 Y 之间的相关性接近 1 或 -1,这意味着 Y 可以用线性来解释使用X作为变量的方程,例如:Y = A X + B,最接近1或-1,这个方程越精确。
【解决方案2】:

.corr() 找到数据帧中每一列(变量)之间的相关性,它返回一个二维数据矩阵。

corr = df.corr() //df 是我的数据框

数据值在热图中表示为颜色。热图的目标是提供彩色的视觉信息摘要。

plt.figure(figsize= (20,22)) sns.set(font_scale=1.5) sns.heatmap(corr, annot=True) plt.show()

【讨论】:

    猜你喜欢
    • 2020-08-26
    • 2021-04-20
    • 2018-03-06
    • 1970-01-01
    • 1970-01-01
    • 2019-02-07
    • 2018-03-27
    • 2012-03-16
    • 1970-01-01
    相关资源
    最近更新 更多