【发布时间】:2020-07-18 12:52:52
【问题描述】:
pyspark中有一个DataFrame,数据如下:
id manager score
A x 3
A y 1
B a 2
B b 5
C f 2
D f 6
我期望结果数据集中恰好有 n 个 ID。
例如。如果我说需要 3 个 ID,那么生成的数据集将如下所示:
id manager score
A x 3
A y 1
B a 2
B b 5
C f 2
所以这个数据集有 5 行,但正如预期的那样正好有 3 个 ID。 如果我执行 df.limit(3) 它将仅是前 3 条记录,因为 ID 重复,我将获得少于 3 个 ID,即在这种情况下只有 2 个。如何进行?谢谢
【问题讨论】:
标签: python apache-spark pyspark pyspark-dataframes