【发布时间】:2019-07-23 01:41:52
【问题描述】:
我想对 Python 数据框中的每个组应用自定义归约函数。该函数通过执行组合组中的几列的操作将组缩减为单行。
我是这样实现的:
import pandas as pd
import numpy as np
df = pd.DataFrame(data={
"afac": np.random.random(size=1000),
"bfac": np.random.random(size=1000),
"class":np.random.randint(low=0,high=5,size=1000)
})
def f(group):
total_area = group['afac'].sum()
per_area = (group['afac']/total_area).values
per_pop = group['bfac'].values
return pd.DataFrame(data={'per_apop': [np.sum(per_area*per_pop)]})
aggdf = df.groupby('class').apply(f)
我的输入数据框df 看起来像:
>>> df
afac bfac class
0 0.689969 0.992403 0
1 0.688756 0.728763 1
2 0.086045 0.499061 1
3 0.078453 0.198435 2
4 0.621589 0.812233 4
但我的代码给出了这个多索引数据框:
>>> aggdf
per_apop
class
0 0 0.553292
1 0 0.503112
2 0 0.444281
3 0 0.517646
4 0 0.503290
我尝试了各种方法来恢复“正常”数据框,但似乎都不起作用。
>>> aggdf.reset_index()
class level_1 per_apop
0 0 0 0.553292
1 1 0 0.503112
2 2 0 0.444281
3 3 0 0.517646
4 4 0 0.503290
>>> aggdf.unstack().reset_index()
class per_apop
0
0 0 0.553292
1 1 0.503112
2 2 0.444281
3 3 0.517646
4 4 0.503290
如何执行此操作并获得正常的数据帧?
更新:输出数据框应包含class 和per_apop 的列。理想情况下,函数f 可以返回多列,也可能返回多行。也许使用
return pd.DataFrame(data={'per_apop': [np.sum(per_area*per_pop),2], 'sue':[1,3]})
【问题讨论】:
标签: python pandas apply pandas-groupby multi-index