如何在 Spark 的 sort shuffle 中确定要进入哪个分区

【问题标题】：How determine that which partition a key to go to in sort shuffle of Spark如何在 Spark 的 sort shuffle 中确定要进入哪个分区
【发布时间】：2017-05-30 02:08:51
【问题描述】：

在排序%溢出过程中，哪个键是分区的开始和花药？

【问题讨论】：

这是 Spark Core 还是 SQL？您能否显示您考虑的确切代码 sn-p 以确保我们在谈论相同的事情？
How does HashPartitioner work?的可能重复
它是 Spark 核心。如figure 所示。谢谢。 @Jacek Laskowski

标签： apache-spark shuffle

【解决方案1】：

无论是 Spark Core（带有 RDD）还是 Spark SQL（带有 Datasets），默认分区器都是HashPartitioner，其中键的哈希给出了分区：

使用 Java 的 Object.hashCode 实现基于哈希的分区的 org.apache.spark.Partitioner。

【讨论】：

我不同意 :)
在我从 OP 获得所有需要的信息后，让我们进行这次对话 :) 如果是 Spark SQL，那么答案可能会变得更复杂（并且不会重复）。
好吧，抛开细节不谈，您引用的文档与Datasets 无关/不正确。