【发布时间】:2016-05-05 17:59:10
【问题描述】:
在所有示例中,我总是看到 partitionBy 接收 HashPartitioner 的 new 实例
val rddTenP = rdd.partitionBy(new HashPartitioner(10))
我要加入两个 RDD。它们的键列具有来自同一集合userId 的值。我应该对它们进行分区以提高连接效率吗?如果是,我是否应该创建一个 HashPartitioner 实例 hp
val hp: HashPartitioner = new spark.HashPartitioner(84)并将 hp 传递给两个 partitionBy 方法,以便让要连接的行落入同一个节点?这是 partitionBy 的工作方式吗?
【问题讨论】:
标签: scala apache-spark