如何在不运行 spark 作业的情况下对 Hadoop 运行 spark sql 查询答案

【问题标题】：How to run spark sql queries against Hadoop without running a spark job如何在不运行 spark 作业的情况下对 Hadoop 运行 spark sql 查询
【发布时间】：2021-07-29 01:23:40
【问题描述】：

我开发了 spark sql 来针对 hadoop 运行。今天我必须运行一个调用我的查询的 spark 作业。还有另一种方法可以做到这一点吗？我发现我花了太多时间来解决在 spark 中运行作业的附带问题。理想情况下，我希望能够直接针对 hadoop/hbase 编写和执行 Spark SQL 查询，并完全绕过 spark 作业。在调试或尝试替代查询时，这将允许更快的迭代。

请注意，我的查询通常长达 100 行或更多，因此从命令行工作具有挑战性。

我必须从 WIndows 工作站执行此操作

【问题讨论】：

反对Hadoop中的什么来源？
@thebluephantom Spark SQL 直接针对 hadoop/hbase 查询

标签： apache-spark hadoop

【解决方案1】：

可以用于 HBase 的最佳方式是使用 Apache Phoenix。它提供了一个SQL接口。

例如，在我的上一个项目中，我使用 NIFI 和 Phoenix 来读取和改变 HBase 数据。从命令行工作得很好。我确实在使用它时发现了一个错误。

见https://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html。您使用 SQL 文件。此外，您还可以使用 Hue。

从未在 Windows 上尝试过以下操作，但这是可能的。见https://community.cloudera.com/t5/Community-Articles/How-to-connect-a-Windows-JDBC-client-to-Cluster-enabled-with/ta-p/247787

【讨论】：

请注意，我的查询通常有 100 行或更多，因此从命令行工作具有挑战性。
而且...我需要一个 Windows 客户端
干杯和成功。