在不同的数据库上使用 SparkSQL 处理查询

【问题标题】：Processing of queries using SparkSQL on difference databases在不同的数据库上使用 SparkSQL 处理查询
【发布时间】：2021-08-25 20:03:58
【问题描述】：

我想将 Spark SQL（安装在机器 1 上）与不同数据存储的连接器一起使用，例如 HBase、Hive、Cassandra 和 MySQL（安装在机器 2 上以执行简单的分析，例如最小值/最大值、平均等。

我的问题：这些查询的处理是在机器 1 上完成的，还是 Spark SQL 只是在数据存储端（即机器 2）上执行不同分析的接口？

【问题讨论】：

【解决方案1】：

是和不是。这取决于你的 spark 工作。

Spark SQL 是一个单独的实现。它与数据存储无关。当您实现 spark sql 作业时，spark 会将其转换为称为 DAG 的东西。它是一种类似于数据库查询计划的技术，但完全在 spark 集群上运行。

如果是简单的最小值/最大值，它可能会被转换为直接的底层存储查询。但它也可能被翻译成预先选择一堆记录，然后进行自己的数据处理的东西。通过这种方式，还可以连接和聚合来自不同数据源的数据。

您可以使用普通的explain 语句或通过spark web ui 分析spark sql 计划。

【讨论】：