【发布时间】:2020-03-26 12:54:10
【问题描述】:
我正在尝试复制this tutorial from RStudio website
当我将数据加载到 Hive 中时,我可以在 Hive 命令行中运行 show tables 或 select count(*) from airlines,我会得到正确的响应。但是在教程的后面,当我安装sparklyr 并使用下面的命令连接到数据时,RStudio 的 Connections 选项卡中没有显示任何表。
sc <- spark_connect(master = "yarn-client", config = config, version = '2.4.4')
此外,令人惊讶的是,当我运行 hive_context(sc) %>% invoke('sql', 'show tables') %>% collect() 时,我没有得到任何表格;就好像 Spark 正在连接到不同的 Hive 实例。
例如,如果我运行以下命令将表添加到 Hive 数据库,它将显示在 Connections 选项卡上,并且当我将 show tables 作为 SQL 命令运行时,它将被列出。
iris_tbl <- copy_to(sc, iris, "iris", overwrite = TRUE)
hive_context(sc) %>% invoke('sql', 'show tables') %>% collect()
# A tibble: 1 x 3
database tableName isTemporary
<chr> <chr> <lgl>
1 NA iris TRUE
但是当我通过终端进入 Hive 命令行并运行 show tables; 时,它不会显示 iris 表。
如何告诉 Spark 连接到“正确”的 Hive 实例?
【问题讨论】:
标签: r apache-spark hive rstudio sparklyr