【发布时间】:2019-08-12 20:24:32
【问题描述】:
我有一个具有 9000 个唯一 ID 的数据框 df。
喜欢
| id |
1
2
我想生成一个随机样本,将这 9000 个 id 替换 100000 次。 我如何在 pyspark 中做到这一点
我试过了
df.sample(True,0.5,100)
但我不知道如何精确到 100000 个数字
【问题讨论】:
-
为了清楚起见,您需要随机抽取 9000 个 id 样本,其中每个样本中有 4,500 个 ids(由于我们使用替换进行抽样,因此可能会重复),您需要 100,000 个这些样本?
-
9000 是我拥有的不同 ID 的总体,我想通过替换和随机对总体进行过采样到 100000。所以用简单的英语,我想以随机方式从一罐 9000 个 id 中提取一个随机 id 100000 次。我希望这会有所帮助。
-
成功了,谢谢。我现在会努力解决它。
标签: random pyspark apache-spark-sql