【发布时间】:2022-10-02 19:28:24
【问题描述】:
我有一个包含大约一百万条记录的 spark 数据框。我试图将此数据帧拆分为多个小数据帧,其中每个数据帧的最大行数为 20,000(这些数据帧中的每一个的行数都应为 20,000,但最后一个数据帧可能有也可能没有 20,000)。你能帮我解决这个问题吗?谢谢你。
-
您可以粘贴到目前为止使用过的任何代码吗?数据框是否有一列是每一行的唯一 ID?
-
自从我对 Spark 做了很多事情以来已经有一段时间了,但这听起来像是您可以通过使用
coalesce重新分区到“正确”数量的分区并按分区拆分来完成的事情。