【问题标题】:Connecting to Spark SQL on EMR using JDBC使用 JDBC 连接到 EMR 上的 Spark SQL
【发布时间】:2016-11-18 18:05:49
【问题描述】:

我在 EMR 上运行了 spark,我一直在尝试使用 JDBC hive 驱动程序从 SQLWorkbench 连接到 spark-SQL,但没有成功。我已经在 EMR 上启动了 thrift 服务器,并且能够从 Tableau/SQL Workbench 连接到端口 10000(默认)上的 Hive。当我尝试运行查询时,它会触发 Tez/Hive 作业。但是,我想使用 Spark 运行查询。在 EMR 框中,我可以使用 beeline 连接到 SparkSQL 并将查询作为 spark 作业运行。资源管理器显示直线查询作为 spark 作业运行,而通过 SQLWorkbench 运行的查询正在运行 hive/Tez 作业。

当我检查日志时,我发现连接到 spark 的 thrift 服务器正在端口 10001(默认)上运行。 当我启动直线时,条目会出现在我正在运行的连接和 sql 中。但是,当使用相同的连接参数连接 SQLWorkbench/Tableau 时,它有一个例外,没有太多细节。异常只是说连接结束。

我尝试通过传递参数在自定义端口上运行,beeline 可以工作,但不能通过 jdbc 连接。

有解决这个问题的帮助吗?

【问题讨论】:

    标签: amazon-web-services jdbc pyspark apache-spark-sql emr


    【解决方案1】:

    我能够解决问题。我能够从 Tableau 连接到 SparkSQL,我无法连接的原因是我们以 root 身份启动了 thrift 服务。不知道为什么这很重要,我不得不将日志文件夹的权限更改为当前用户(不是 root)并启动 thrift 服务,这使我能够毫无问题地连接。

    【讨论】:

      猜你喜欢
      • 2020-05-10
      • 2015-11-20
      • 2017-11-20
      • 2018-11-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多