【发布时间】:2017-02-09 20:46:37
【问题描述】:
我以一种方式对数据进行了分区,我只想将其分区为另一种。 所以它基本上会是这样的:
sqlContext.read().parquet("...").write().partitionBy("...").parquet("...")
我想知道这是否会触发 shuffle 或所有数据将在本地重新分区,因为在这种情况下,分区意味着 HDFS 中的一个目录,来自同一分区的数据不必位于同一节点上写在 HDFS 的同一个目录中。
【问题讨论】:
标签: apache-spark hadoop apache-spark-sql hdfs partitioning