【发布时间】:2019-10-20 17:08:13
【问题描述】:
我有一个 Pyspark DataFrame,我想随机采样(从整个 df 中的任何位置)~100k 个唯一 ID。 DF 是基于事务的,因此一个 ID 会出现多次,我想获取 100k 个不同的 ID,然后从 DF 中获取每个 ID 的所有事务记录。
我试过了:
sample = df.sample(False, 0.5, 42)
sample = sample.distinct()
然后我不确定如何将它匹配回原始 Df,而且一些 ID 不干净,我希望能够在示例中添加一些条件,说明 ID 必须是例如 10 位数字。
【问题讨论】: