数据框行值相关性答案

【问题标题】：Data Frame Row Value Correlation数据框行值相关性
【发布时间】：2019-03-26 21:35:03
【问题描述】：

如何根据以下df找到Product_Code列中每一行值的以下字段之间的相关性？

我已经尝试过 df.corr() 没有成功。

实际数据框为 2mm+ 行。下面的示例数据框：

df = pd.DataFrame{ ‘Company_Numb’: ["125", "137", "129"],
'Year' : [“2016”, ”2017”, “2018”],'Product_Code' : [“Batteries”, “Clothes”, “Tablet”],'Sales_Success_Code' : [0, 1, 0],‘Peer_Group_Rank’ : [65.65, 41.24, 16.12],‘Store_Count’ : [5, 14, 2],‘Employee_Count’ : [74, 19, 10]}

• 每个产品代码的 Sales_Success_Code 和 Peer_Group_Rank 之间的相关性是什么

• 每个产品代码的 Sales_Success_Code 和 Store_Count 之间的相关性是什么

• 每个产品代码的 Sales_Success_Code 和 Employee_count 之间的相关性是什么

谢谢，

【问题讨论】：

标签： python-3.x pandas correlation

【解决方案1】：

我使用了与您相同的代码并得到了结果。只需初始化 pandas 对象即可。

df = pd.DataFrame({'Company_Numb': ["125", "137", "129"],
                   'Year': ['2016', '2017', '2018'], 'Product_Code': ['Batteries', 'Clothes', 'Tablet'], 'Sales_Success_Code': [0, 1, 0], 'Peer_Group_Rank': [65.65, 41.24, 16.12], 'Store_Count': [5, 14, 2], 'Employee_Count': [74, 19, 10]})

print(df.corr())

#OUTPUT:
                   Employee_Count     ...       Store_Count
Employee_Count            1.000000     ...         -0.150210
Peer_Group_Rank           0.920429     ...          0.248218
Sales_Success_Code       -0.383280     ...          0.970725
Store_Count              -0.150210     ...          1.000000

【讨论】：

Robex，我能做到这一点；但是，我试图找到每个 Product_Code 的相关性。因此输出的第 0 列将显示为：“电池”、“衣服”、“平板电脑”。谢谢

【解决方案2】：

无法在列表中找到单个项目的相关性。相关性本身用于衡量两个向量之间的变化。这是因为皮尔逊公式如何计算与两个向量的标准差和协方差的相关性。但是，有一个解决方案可以找到单个列与另一列的相关系数。

print(df.Sales_Success_Code.corr(df.Peer_Group_Rank))

【讨论】：