【发布时间】:2018-09-14 06:14:45
【问题描述】:
假设我有一个虚构的 pandas 数据框 df。
假设它有三列:gender、height 和 weight
是否有内置或有效的方法来获取每个 gender 的 height 和 weight 的相关性?
到目前为止我做了什么:
- 手动过滤每个性别的数据框,然后运行
相关性。 - 这对我的样本集有效,但在生产集中会崩溃,因为我有更多的类别而不仅仅是
gender。我有数百个。
我的次优代码示例:
df_m=df[(df['gender']=='male')]
df_m['height'].corr(df_m['weight'])
df_f=df[(df['gender']=='female')]
df_f['height'].corr(df_f['weight'])
理想输出:
'gender' 'correlation'
'male' .9007876876
'female' .8777687666
【问题讨论】:
标签: python python-3.x pandas