【发布时间】:2015-07-24 14:26:36
【问题描述】:
我有一个 spark 集群在 10 台机器 (1 - 10) 上运行,主机在 1 台机器上。所有这些都在 CentOS 6.4 上运行。
我正在尝试使用 sparkR 将 jupyterhub 安装(由于在 CentOS 上安装出现问题而在 ubuntu docker 中运行)连接到集群并获取 spark 上下文。
我使用的代码是
Sys.setenv(SPARK_HOME="/usr/local/spark-1.4.1-bin-hadoop2.4")
library(SparkR)
sc <- sparkR.init(master="spark://<master-ip>:7077")
我得到的输出是
attaching package: ‘SparkR’
The following object is masked from ‘package:stats’:
filter
The following objects are masked from ‘package:base’:
intersect, sample, table
Launching java with spark-submit command spark-submit sparkr-shell/tmp/Rtmpzo6esw/backend_port29e74b83c7b3 Error in sparkR.init(master = "spark://10.10.5.51:7077"): JVM is not ready after 10 seconds
Error in sparkRSQL.init(sc): object 'sc' not found
我使用的是 Spark 1.4.1。 Spark 集群也在运行 CDH 5。
jupyterhub 安装可以通过 pyspark 连接到集群,我有使用 pyspark 的 python 笔记本。
谁能告诉我我做错了什么?
【问题讨论】:
标签: apache-spark sparkr