【发布时间】:2020-05-24 00:28:32
【问题描述】:
我必须按客户、帐户在此数据集中应用平均值计算,但此平均值需要每 3 个月应用到这些组中。对于没有3个月的客户A1200,结果需要NaN。
customer account month invoice
C1000 A1100 2019-10-01 34000
2019-11-01 55000
2019-12-01 80000
A1200 2019-10-01 90000
2019-11-01 55000
A1300 2019-10-01 10000
2019-11-01 10000
2019-12-01 20000
C2000 A2100 2019-10-01 78000
2019-11-01 55000
2019-12-01 80000
我尝试使用此命令,但平均值看起来不正确。
df_3m.groupby(['customer','account']).mean()
pandas 或 pyspark 中是否有一些想法?
【问题讨论】:
-
只是为了确认分组没有满三个月,那么不要对相应的金额做任何事情。只需将金额替换为
nan?如果有 4 个月,计算前 3 个月的平均值并将第 4 个月的金额替换为nan,会发生什么情况?
标签: python python-3.x pandas pyspark pandas-groupby