【发布时间】:2021-12-06 08:00:42
【问题描述】:
我在数据库中有一个表。我需要从表中获取记录,如果我的 id 计数大于 1,那么我必须选择具有最小值(itm_num)的记录。
检索所有唯一 ID。对于 id 的计数大于 1,则检索具有最小值的 itm_num(按升序排序)。
输入:
Source id group cd itm_num
eu2 10404458 MELDING DEF 0003
eu2 10404458 MELDING DEF 0002
eu2 10404458 AANV PLAN 0001
pda 10020520 AANVRAA PLAN1 0001
pda 10020520 BGAAD PLAN1 0007
pda 10020527 HYGGG PLAN1 0002
sys 10020120 HYGGG PLAN1 0002
pda 10020620 HYGGG PLAN1 0002
预期输出:
Source id group cd itm_num
eu2 10404458 AANV PLAN 0001
pda 10020520 AANVRAA PLAN1 0001
pda 10020527 HYGGG PLAN1 0002
sys 10020120 HYGGG PLAN1 0002
pda 10020620 HYGGG PLAN1 0002
我希望在 Pyspark 中得到这个结果(SQL 也会有所帮助) 请帮忙!谢谢。
【问题讨论】:
标签: sql dataframe pyspark count duplicates