【发布时间】:2021-05-03 19:14:01
【问题描述】:
我有两个 pyspark 数据框 tdf 和 fdf,其中 fdf 比 tdf 大得多。这些数据框的大小每天都在变化,我不知道。我想从fdf 中随机挑选数据来组成一个新的数据框rdf,其中rdf 的大小大约等于tdf 的大小。目前我有这些行:
tdf = tdf.count()
fdf = fdf.count()
sampling_fraction = float(tdf) / float(fdf)
rdf = fdf(sampling_fraction, SEED)
这些行产生正确的结果。但是当fdf 的大小增加时,fdf.count() 需要几天才能完成。你能推荐另一种在 PySpark 中更快的方法吗?
【问题讨论】:
-
我的问题是关于 PySpark 而不是 Pandas。
标签: apache-spark pyspark apache-spark-sql