【问题标题】:Error while connecting sparklyr to remote sparkR in Rstudio在 Rstudio 中将 sparklyr 连接到远程 sparkR 时出错
【发布时间】:2017-02-11 17:16:33
【问题描述】:

我尝试在本地 RStudio 会话中使用以下命令连接到 sparkR -

sc <- spark_connect(master = "spark://x.x.x.x:7077",
spark_home = "/home/hduser/spark-2.0.0-bin-hadoop2.7", version="2.0.0", config = list())

但是,我收到以下错误 -

Error in start_shell(master = master, spark_home = spark_home, spark_version = version,  : 
SPARK_HOME directory '/home/hduser/spark-2.0.0-bin-hadoop2.7' not found

有什么帮助吗?

提前致谢

【问题讨论】:

  • 是否设置了SPARK_HOME 环境变量?我想知道是否出于某种原因选择了它?
  • 我运行这个命令来设置它 - Sys.setenv(SPARK_HOME = '/home/hduser/spark-2.0.0-bin-hadoop2.7')

标签: rstudio sparklyr


【解决方案1】:

请问您是否已将 spark 实际安装到该文件夹​​中? 你能在/home/ubuntu/文件夹中显示ls命令的结果吗?

还有sessionInfo() 在 R 中?

让我与您分享我是如何使用自定义文件夹结构的。 它在 Win,而不是 Ubuntu 上,但我想它不会有太大的不同。

使用最新的开发版

如果您愿意在 GitHub 上查看,RStudio 人员几乎每天都在更新 sparklyr,修复了大量报告的错误:

devtools::install_github("rstudio/sparklyr")

在我的情况下,仅安装 sparklyr_0.4.12 解决了 Windows 下 Spark 2.0 的问题

检查 Spark 可用性

请检查您查询的版本是否可用:

spark_available_versions()

您应该会看到类似下面一行的内容,这表明您打算使用的版本实际上可用于您的 sparklyr 包。

[13] 2.0.0 2.7 spark_install(version = "2.0.0", hadoop_version = "2.7")

Spark 的安装

为了保持顺序,您可能希望将 spark 安装在其他位置,而不是 RStudio 缓存的主文件夹。

选项(spark.install.dir = "c:/spark")

一旦你确定想要的版本可用,就该安装 spark 了

spark_install(version = "2.0.0", hadoop_version = "2.7")

我会检查它是否安装正确(如果需要,将其更改为 shell ls

cd c:/spark 目录(在 Win 中)| ls(在 Ubuntu 中)

现在指定您要使用的版本的位置:

Sys.setenv(SPARK_HOME = 'C:/spark/spark-2.0.0-bin-hadoop2.7')

最后享受连接的创建:

sc

希望对你有帮助。

【讨论】:

    猜你喜欢
    • 2017-02-09
    • 2018-11-29
    • 2019-04-15
    • 2019-07-14
    • 2018-02-24
    • 2017-05-26
    • 2017-07-02
    • 2017-10-19
    • 2019-09-24
    相关资源
    最近更新 更多