【问题标题】:Connecting SparkR to the spark cluster将 SparkR 连接到 spark 集群
【发布时间】:2015-07-24 14:26:36
【问题描述】:

我有一个 spark 集群在 10 台机器 (1 - 10) 上运行,主机在 1 台机器上。所有这些都在 CentOS 6.4 上运行。

我正在尝试使用 sparkR 将 jupyterhub 安装(由于在 CentOS 上安装出现问题而在 ubuntu docker 中运行)连接到集群并获取 spark 上下文。

我使用的代码是

Sys.setenv(SPARK_HOME="/usr/local/spark-1.4.1-bin-hadoop2.4") 
library(SparkR)
sc <- sparkR.init(master="spark://<master-ip>:7077")

我得到的输出是

attaching package: ‘SparkR’
The following object is masked from ‘package:stats’:
filter
The following objects are masked from ‘package:base’:
intersect, sample, table
Launching java with spark-submit command spark-submit sparkr-shell/tmp/Rtmpzo6esw/backend_port29e74b83c7b3 Error in sparkR.init(master = "spark://10.10.5.51:7077"): JVM is not ready after 10 seconds

Error in sparkRSQL.init(sc): object 'sc' not found

我使用的是 Spark 1.4.1。 Spark 集群也在运行 CDH 5。

jupyterhub 安装可以通过 pyspark 连接到集群,我有使用 pyspark 的 python 笔记本。

谁能告诉我我做错了什么?

【问题讨论】:

    标签: apache-spark sparkr


    【解决方案1】:

    我有一个类似的问题,并且到处搜索但没有解决方案。您能否告诉我“jupyterhub 安装(由于在 CentOS 上安装问题而在 ubuntu docker 中运行)”是什么意思?

    我们在 CentOS 6.4 上也有 4 个集群。我的另一个问题是如何使用 IPython 或 RStudio 之类的 IDE 与这 4 个服务器进行交互?我是否使用我的笔记本电脑远程连接到这些服务器(如果是,那么如何?)如果不是,那么其他解决方案是什么。

    现在回答你的问题,我可以试一试。我认为您必须使用 --yarn-cluster 选项,如 here 所述,希望这可以帮助您解决问题。

    干杯, 阿什什

    【讨论】:

    • 您可以让 IPython 将其笔记本公开为网络服务器,以便在另一台机器上工作。
    • 非常感谢您的回复。请,您能否详细说明您的答案。 IPython 应该安装在我的笔记本电脑或服务器上还是两者兼有?如何将其公开为网络服务器?
    • IPython 笔记本公开了一个网页,您可以在常规 Web 浏览器中浏览该网页。您只需要在服务器上设置 IPython。如果您不使用预构建的 IPython 发行版,安装可能会很困难,如下所述:ipython.org/install.html
    • 再次感谢您的解释。这是非常有帮助的。而且我认为我现在遇到了麻烦,因为没有使用预先构建的 IPython 发行版安装服务器。
    猜你喜欢
    • 2018-02-24
    • 1970-01-01
    • 2022-06-15
    • 2019-01-05
    • 2017-04-15
    • 1970-01-01
    • 2023-03-14
    • 2020-08-10
    • 1970-01-01
    相关资源
    最近更新 更多