【发布时间】:2017-06-05 23:04:27
【问题描述】:
这两种相关性是否可能不同?
熊猫版本 0.18.1
from pandas import Series
a = ['Arsenal', 'Leicester', 'Man City', 'Tottenham', 'Crystal Palace']
b = ['Arsenal', 'Leicester', 'Man City', 'Tottenham', 'Man United']
c = ['Arsenal', 'Leicester', 'Man City', 'Tottenham', 'Man United']
d = ['Arsenal', 'Leicester', 'Man City', 'Tottenham', 'West Ham']
Series(a).corr(Series(b), method="spearman")
0.69999999999999996
Series(c).corr(Series(d), method="spearman")
0.8999999999999998
【问题讨论】:
-
python 3.5.2 和 anaconda 4.4.1
-
pandas 必须以某种方式对这些字符串进行排序,因此它们按字母顺序排列。因此,根据其他团队的存在情况,团队的排名可能会有所不同。所以 pandas 计算“正确”,但这不是你想要的操作。
-
我不是统计学家,但不需要对两个系列的数字进行相关性吗?你期望的输出是什么?在 Pandas 0.19.2 中,上面的示例代码崩溃了,因为字符串不是浮点数。
-
对于 Spearman 的相关性,您需要有按序数尺度测量的数据。你所拥有的只是名义上的。我建议您查看名义属性的相似性度量,而不是计算相关性。
标签: pandas correlation