【问题标题】:How to run spark sql queries against Hadoop without running a spark job如何在不运行 spark 作业的情况下对 Hadoop 运行 spark sql 查询
【发布时间】:2021-07-29 01:23:40
【问题描述】:

我开发了 spark sql 来针对 hadoop 运行。今天我必须运行一个调用我的查询的 spark 作业。还有另一种方法可以做到这一点吗?我发现我花了太多时间来解决在 spark 中运行作业的附带问题。理想情况下,我希望能够直接针对 hadoop/hbase 编写和执行 Spark SQL 查询,并完全绕过 spark 作业。在调试或尝试替代查询时,这将允许更快的迭代。

请注意,我的查询通常长达 100 行或更多,因此从命令行工作具有挑战性。

我必须从 WIndows 工作站执行此操作

【问题讨论】:

  • 反对Hadoop中的什么来源?
  • @thebluephantom Spark SQL 直接针对 hadoop/hbase 查询

标签: apache-spark hadoop


【解决方案1】:

可以用于 HBase 的最佳方式是使用 Apache Phoenix。它提供了一个SQL接口。

例如,在我的上一个项目中,我使用 NIFI 和 Phoenix 来读取和改变 HBase 数据。从命令行工作得很好。我确实在使用它时发现了一个错误。

https://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html。您使用 SQL 文件。此外,您还可以使用 Hue。

从未在 Windows 上尝试过以下操作,但这是可能的。见https://community.cloudera.com/t5/Community-Articles/How-to-connect-a-Windows-JDBC-client-to-Cluster-enabled-with/ta-p/247787

【讨论】:

  • 请注意,我的查询通常有 100 行或更多,因此从命令行工作具有挑战性。
  • 而且...我需要一个 Windows 客户端
  • 干杯和成功。
猜你喜欢
  • 1970-01-01
  • 2019-02-10
  • 2015-11-08
  • 1970-01-01
  • 1970-01-01
  • 2015-08-31
  • 1970-01-01
  • 2012-08-07
相关资源
最近更新 更多