【发布时间】:2017-05-30 02:08:51
【问题描述】:
在排序%溢出过程中,哪个键是分区的开始和花药?
【问题讨论】:
-
这是 Spark Core 还是 SQL?您能否显示您考虑的确切代码 sn-p 以确保我们在谈论相同的事情?
-
它是 Spark 核心。如figure 所示。谢谢。 @Jacek Laskowski
标签: apache-spark shuffle
在排序%溢出过程中,哪个键是分区的开始和花药?
【问题讨论】:
标签: apache-spark shuffle
无论是 Spark Core(带有 RDD)还是 Spark SQL(带有 Datasets),默认分区器都是HashPartitioner,其中键的哈希给出了分区:
使用 Java 的 Object.hashCode 实现基于哈希的分区的 org.apache.spark.Partitioner。
【讨论】:
Datasets 无关/不正确。