【发布时间】:2021-11-05 20:30:38
【问题描述】:
所以,我有一个包含一些重复数据的数据集,我需要将其删除。由于某种原因,我需要的数据总是在中间:
--> df_apps
DATE | APP | DOWNLOADS | ACTIVE_USERS
______________________________________________________
2021-01-10 | FACEBOOK | 1000 | 5000
2021-01-10 | FACEBOOK | 20000 | 900000
2021-02-10 | FACEBOOK | 9000 | 72000
2021-01-11 | FACEBOOK | 4000 | 2000
2021-01-11 | FACEBOOK | 40000 | 85000
2021-02-11 | FACEBOOK | 1000 | 2000
在 pandas 中,它就像 df_apps_grouped = df_apps.groupby('DATE').nth_value(1) 一样简单,我会得到下面的结果:
--> df_apps_grouped
DATE | APP | DOWNLOADS | ACTIVE_USERS
______________________________________________________
2021-01-10 | FACEBOOK | 20000 | 900000
2021-01-11 | FACEBOOK | 40000 | 85000
但是对于一个特定的项目,我必须使用 pyspark 并且我无法得到这个结果。 你能帮我解决这个问题吗?
谢谢!
【问题讨论】: