【发布时间】:2019-05-21 02:40:52
【问题描述】:
我有一个有 4 个节点的架构和一个有 4000 行的 RDD,我需要在节点上平均地重新分区这个 RDD。结果应该是:
node 1 -> 1000 rows
node 2 -> 1000 rows
node 3 -> 1000 rows
node 4 -> 1000 rows.
如何在 Python 中做到这一点?
【问题讨论】:
标签: python apache-spark pyspark rdd partitioning