【问题标题】:How to accelerate leftouterjoin in Spark?如何在 Spark 中加速 leftouterjoin?
【发布时间】:2015-07-28 04:59:16
【问题描述】:

如何在 spark 中加速 leftouterjoin
我在 Spark 中工作。
leftouterjoin 成为整个工作的瓶颈。
所以有必要对spark中的leftouterjoin进行优化。
它是 200 万条数据集记录之间的左外连接。
计算 leftouterjoin 需要 8 分钟 13

leftOuterJoin at :26
2015/07/28 04:38:16 8.3 分钟 7/7
152.7 MB 50.5 MB 278.5 MB

【问题讨论】:

    标签: python optimization apache-spark left-join query-optimization


    【解决方案1】:

    您在 RDD 中使用过partitionBypersist 吗?

    为了提高性能,我建议你应该使用partionby并坚持在左(左外连接)RDD。

    示例代码:

    val leftRDD = sc.textFile(//..).partitionBy(numPartitions).persist()
    

    numPartitions :取决于您的集群硬件。核心数(如果你有 4 核机器,那么选择numPartitions = 8)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-02-28
      • 2020-05-24
      • 1970-01-01
      • 2021-06-17
      • 1970-01-01
      相关资源
      最近更新 更多