【问题标题】:Processing of queries using SparkSQL on difference databases在不同的数据库上使用 SparkSQL 处理查询
【发布时间】:2021-08-25 20:03:58
【问题描述】:

我想将 Spark SQL(安装在机器 1 上)与不同数据存储的连接器一起使用,例如 HBase、Hive、Cassandra 和 MySQL(安装在机器 2 上以执行简单的分析,例如最小值/最大值、平均等。

我的问题:这些查询的处理是在机器 1 上完成的,还是 Spark SQL 只是在数据存储端(即机器 2)上执行不同分析的接口?

【问题讨论】:

    标签: apache-spark apache-spark-sql


    【解决方案1】:

    是和不是。这取决于你的 spark 工作。

    Spark SQL 是一个单独的实现。它与数据存储无关。当您实现 spark sql 作业时,spark 会将其转换为称为 DAG 的东西。 它是一种类似于数据库查询计划的技术,但完全在 spark 集群上运行。

    如果是简单的最小值/最大值,它可能会被转换为直接的底层存储查询。但它也可能被翻译成预先选择一堆记录,然后进行自己的数据处理的东西。通过这种方式,还可以连接和聚合来自不同数据源的数据。

    您可以使用普通的explain 语句或通过spark web ui 分析spark sql 计划。

    【讨论】:

      猜你喜欢
      • 2018-02-17
      • 1970-01-01
      • 2016-09-19
      • 2011-06-26
      • 1970-01-01
      • 1970-01-01
      • 2014-08-17
      • 2012-05-09
      • 1970-01-01
      相关资源
      最近更新 更多