【发布时间】:2016-01-13 14:54:45
【问题描述】:
我可以从安装了 apache spark 的同一集群中的 hive 服务器加载数据。但是我如何从远程配置单元服务器将数据加载到数据框中。 hive jdbc 连接器是唯一的选择吗?
任何建议我该怎么做?
【问题讨论】:
标签: apache-spark jdbc hive apache-spark-sql
我可以从安装了 apache spark 的同一集群中的 hive 服务器加载数据。但是我如何从远程配置单元服务器将数据加载到数据框中。 hive jdbc 连接器是唯一的选择吗?
任何建议我该怎么做?
【问题讨论】:
标签: apache-spark jdbc hive apache-spark-sql
您可以使用org.apache.spark.sql.hive.HiveContext 对 Hive 表执行 SQL 查询。
您也可以将 spark 连接到真正存储数据的底层 HDFS 目录。这将更高效,因为 SQL 查询不需要解析或应用于文件的架构。
如果集群是外部集群,you'll need to set hive.metastore.uris
【讨论】: