【发布时间】:2022-01-07 00:47:19
【问题描述】:
我有一个包含“家庭、人、标志”列的 df,并且希望将数据框过滤到至少包含一个标志的家庭。我理解逻辑,但不知道如何编码,有人可以帮忙吗?对于下面的示例,输出将删除家庭 2。
逻辑:
df = df.filter(all rows in households where at least one row in that household contains 'flag'==1)
Example dataframe:
| Household| Person|flag|
| -------- | ----- | -- |
| 1 | Oliver| |
| 1 | Jonny | 1 |
| 2 | David | |
| 2 | Mary | |
| 3 | Lizzie| |
| 3 | Peter | 1 |
【问题讨论】:
标签: pyspark filter group-by apache-spark-sql aggregate