【发布时间】:2019-04-21 11:07:39
【问题描述】:
spark 会根据输入文件的大小自动决定分区的数量。我有两个问题:
我可以指定分区的数量而不是让spark决定多少分区吗?
在进行重新分区时,shuffle 有多糟糕?演出真的很贵吗?我的情况是我需要重新分区为“1”才能写入一个 Parquet 文件,分区为“31”。有多糟糕?为什么?
【问题讨论】:
标签: apache-spark text-files hive-partitions
spark 会根据输入文件的大小自动决定分区的数量。我有两个问题:
我可以指定分区的数量而不是让spark决定多少分区吗?
在进行重新分区时,shuffle 有多糟糕?演出真的很贵吗?我的情况是我需要重新分区为“1”才能写入一个 Parquet 文件,分区为“31”。有多糟糕?为什么?
【问题讨论】:
标签: apache-spark text-files hive-partitions
这个不行,分区数由文件大小决定。
【讨论】:
Repartition 和 coalesce 是用于在读取数据后对数据进行重新分区的两个函数。
【讨论】: