【问题标题】:How determine that which partition a key to go to in sort shuffle of Spark如何在 Spark 的 sort shuffle 中确定要进入哪个分区
【发布时间】:2017-05-30 02:08:51
【问题描述】:

在排序%溢出过程中,哪个键是分区的开始和花药?

【问题讨论】:

  • 这是 Spark Core 还是 SQL?您能否显示您考虑的确切代码 sn-p 以确保我们在谈论相同的事情?
  • 它是 Spark 核心。如figure 所示。谢谢。 @Jacek Laskowski

标签: apache-spark shuffle


【解决方案1】:

无论是 Spark Core(带有 RDD)还是 Spark SQL(带有 Datasets),默认分区器都是HashPartitioner,其中键的哈希给出了分区:

使用 Java 的 Object.hashCode 实现基于哈希的分区的 org.apache.spark.Partitioner。

【讨论】:

  • 我不同意 :)
  • 在我从 OP 获得所有需要的信息后,让我们进行这次对话 :) 如果是 Spark SQL,那么答案可能会变得更复杂(并且不会重复)。
  • 好吧,抛开细节不谈,您引用的文档与Datasets 无关/不正确。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2020-10-11
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-11-26
  • 1970-01-01
  • 2016-06-19
相关资源
最近更新 更多