Spark我可以在执行textFile时手动指定分区数吗答案

【问题标题】：Spark can I manually specify the number of partitions when do textFileSpark我可以在执行textFile时手动指定分区数吗
【发布时间】：2019-04-21 11:07:39
【问题描述】：

spark 会根据输入文件的大小自动决定分区的数量。我有两个问题：

我可以指定分区的数量而不是让spark决定多少分区吗？

在进行重新分区时，shuffle 有多糟糕？演出真的很贵吗？我的情况是我需要重新分区为“1”才能写入一个 Parquet 文件，分区为“31”。有多糟糕？为什么？

【问题讨论】：

标签： apache-spark text-files hive-partitions

【解决方案1】：

这个不行，分区数由文件大小决定。

【讨论】：

【解决方案2】：

Repartition 和 coalesce 是用于在读取数据后对数据进行重新分区的两个函数。

【讨论】：