【发布时间】:2017-08-30 10:05:40
【问题描述】:
想想下表
np.random.seed(42)
ix = pd.date_range('2017-01-01', '2017-01-15', freq='60s')
df = pd.DataFrame(
{
'val': np.random.random(size=ix.shape[0]),
'active': np.random.choice([0,1], size=ix.shape[0])
},
index=ix
)
df.sample(10)
屈服:
active val
2017-01-02 06:05:00 1 0.774654
2017-01-04 08:15:00 1 0.934796
2017-01-13 01:02:00 0 0.792351...
我的目标是计算:
- 每天的总和
- 每天的活动总和
每天的总和这是直截了当的:
gb = df.groupby(pd.to_datetime(df.index.date))
overall_sum_per_day = gb['val'].sum().rename('overall')
每个活跃日的总和这有点棘手(请参阅this)。
active_sum_per_day = gb.agg(lambda x: x[x.active==1]['val'].sum())['val'].rename('active')
我的问题如何将两者结合起来。使用concat:
pd.concat([overall_sum_per_day, active_sum_per_day], axis=1)
我可以实现我的目标。但是我没能一口气实现它并一次应用两个聚合。是否可以?看到这个comment。
【问题讨论】:
-
查看我的回答,了解如何清理 groupby 和应用函数。