【发布时间】:2020-08-06 13:13:24
【问题描述】:
我有 500 MB 的 csv 文件,我正在将其作为数据框读取 我正在寻找这个数据帧的分区的最佳值 我需要做一些广泛的转换并将这个数据框与另一个 csv 连接起来,所以我现在有以下 3 种方法来重新分区这个数据框
- df.repartition(核心数)
- 按照计算500MB/128MB~4个分区对dataframe重新分区,每个分区至少有128MB数据
- 使用 csv 的特定列对数据帧进行重新分区,以便将数据放在相同的分区中
我想知道这些选项中的哪一个最适合在 Spark 2.4 中进行并行计算和处理
【问题讨论】:
标签: dataframe apache-spark apache-spark-sql rdd