Spark中的最佳重新分区方式答案

【问题标题】：Optimal way of repartition in SparkSpark中的最佳重新分区方式
【发布时间】：2020-08-06 13:13:24
【问题描述】：

我有 500 MB 的 csv 文件，我正在将其作为数据框读取我正在寻找这个数据帧的分区的最佳值我需要做一些广泛的转换并将这个数据框与另一个 csv 连接起来，所以我现在有以下 3 种方法来重新分区这个数据框

我想知道这些选项中的哪一个最适合在 Spark 2.4 中进行并行计算和处理

【问题讨论】：

【解决方案1】：

如果您非常了解数据，那么使用列对数据进行分区效果最好。但是，每当集群配置发生变化时，基于块大小和核心数量的重新分区都会发生变化，并且如果您的集群配置在更高的环境中不同，您需要对每个环境进行这些更改。因此，总而言之，数据驱动的重新分区是更好的方法。

【讨论】：