Spark中的bucketBy和partitionBy有什么区别？答案

【问题标题】：What is the difference between bucketBy and partitionBy in Spark?Spark中的bucketBy和partitionBy有什么区别？
【发布时间】：2021-08-08 11:19:58
【问题描述】：

比如我要保存一个表，这两种策略有什么区别？

bucketBy:

someDF.write.format("parquet")
      .bucketBy(4, "country")
      .mode(SaveMode.OverWrite)
      .saveAsTable("someTable")

partitionBy:

someDF.write.format("parquet")
      .partitionBy("country") # <-- here is the only difference
      .mode(SaveMode.OverWrite)
      .saveAsTable("someTable")

我猜，bucketBy 在第一种情况下会创建 4 个包含国家/地区的目录，而 partitionBy 将在“国家/地区”列中创建与唯一值一样多的目录。理解正确吗？

【问题讨论】：

这已经回答了。我希望这个链接有帮助。 https://stackoverflow.com/a/19131221/7022089

标签： apache-spark hadoop pyspark hdfs partitioning

【解决方案1】：

一些区别：

bucketBy 仅是 applicable for file-based data sources in combination with DataFrameWriter.saveAsTable()，即在将 Spark 保存为托管表时，partitionBy 可用于编写任何基于文件的数据源。
bucketBy 用于一次写入，多次读取的场景，在这种情况下，创建数据源的持久分桶版本的前期成本在以后的作业中通过读取 avoiding a costly shuffle 得到回报。而partitionBy 有助于满足下游消费者对 Spark 作业输出的数据布局要求。

我猜，bucketBy 在第一种情况下会创建 4 个包含国家/地区的目录，而 partitionBy 将在“国家/地区”列中创建与唯一值一样多的目录。理解正确吗？

是的，对于partitionBy。但是bucketBy 将创建 4 个存储桶文件（默认为 Parquet）。

【讨论】：

【解决方案2】：

与 Apache Hive 中的分桶不同，Spark SQL 根据存储桶和分区的数量创建存储桶文件。换句话说，分桶文件的数量是桶的数量乘以任务编写者的数量（每个分区一个）。

您还可以将 bucketBy 与 partitionBy 一起使用，这样每个分区（多级分区的最后一级分区）将拥有“n”个存储桶。

【讨论】：