【问题标题】:Spark-SQL Query Hints for Join Performance Improvement用于连接性能改进的 Spark-SQL 查询提示
【发布时间】:2020-06-08 23:02:05
【问题描述】:

我最近被介绍给SparkSQL。我们使用Spark 2.4。我最近发现SparkSQL 查询的 Join 策略支持以下提示:

  • 广播提示
  • 合并提示
  • SHUFFLE_HASH 提示

很遗憾,我没有找到任何在线资料详细讨论这些提示及其应用场景。我想了解一些关于何时在查询 Join 中使用这些提示以提高查询性能的技巧。

谁能用一些例子解释一下。 任何帮助表示赞赏。 谢谢

【问题讨论】:

    标签: apache-spark-sql query-hints


    【解决方案1】:
    1. 广播连接是一种非常高性能的连接,将小表的数据发送到每个执行器以执行映射侧连接。这是配置:spark.sql.autoBroadcastJoinThreshold
    2. 排序合并连接是 spark 2.3 之后的默认连接选择

    有一些帖子,希望对您有所帮助: Spark SQL Joins Sort-Merge Join

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-05-27
      • 2016-08-19
      • 1970-01-01
      • 2011-04-20
      • 2016-06-21
      相关资源
      最近更新 更多