当我们没有数据框的大小时，我们如何快速从 PySpark 中的大数据中采样？答案

【问题标题】：How can we sample from a large data in PySpark quickly when we don't the the size of dataframe?当我们没有数据框的大小时，我们如何快速从 PySpark 中的大数据中采样？
【发布时间】：2021-05-03 19:14:01
【问题描述】：

我有两个 pyspark 数据框 tdf 和 fdf，其中 fdf 比 tdf 大得多。这些数据框的大小每天都在变化，我不知道。我想从fdf 中随机挑选数据来组成一个新的数据框rdf，其中rdf 的大小大约等于tdf 的大小。目前我有这些行：

tdf = tdf.count()
fdf = fdf.count()
sampling_fraction = float(tdf) / float(fdf)
rdf = fdf(sampling_fraction, SEED)

这些行产生正确的结果。但是当fdf 的大小增加时，fdf.count() 需要几天才能完成。你能推荐另一种在 PySpark 中更快的方法吗？

【问题讨论】：

你要找的答案在这里stackoverflow.com/questions/15943769/…
我的问题是关于 PySpark 而不是 Pandas。

标签： apache-spark pyspark apache-spark-sql

【解决方案1】：

您可以尝试从数据帧中采样以获得估计计数：

ratio = 0.01
fdf_estimate = fdf.sample(fraction=ratio).count() / ratio

您可以将比率更改为适当的值，以使其具有合理的性能。

【讨论】：