【发布时间】:2016-11-18 18:05:49
【问题描述】:
我在 EMR 上运行了 spark,我一直在尝试使用 JDBC hive 驱动程序从 SQLWorkbench 连接到 spark-SQL,但没有成功。我已经在 EMR 上启动了 thrift 服务器,并且能够从 Tableau/SQL Workbench 连接到端口 10000(默认)上的 Hive。当我尝试运行查询时,它会触发 Tez/Hive 作业。但是,我想使用 Spark 运行查询。在 EMR 框中,我可以使用 beeline 连接到 SparkSQL 并将查询作为 spark 作业运行。资源管理器显示直线查询作为 spark 作业运行,而通过 SQLWorkbench 运行的查询正在运行 hive/Tez 作业。
当我检查日志时,我发现连接到 spark 的 thrift 服务器正在端口 10001(默认)上运行。 当我启动直线时,条目会出现在我正在运行的连接和 sql 中。但是,当使用相同的连接参数连接 SQLWorkbench/Tableau 时,它有一个例外,没有太多细节。异常只是说连接结束。
我尝试通过传递参数在自定义端口上运行,beeline 可以工作,但不能通过 jdbc 连接。
有解决这个问题的帮助吗?
【问题讨论】:
标签: amazon-web-services jdbc pyspark apache-spark-sql emr