【发布时间】:2017-09-24 07:30:20
【问题描述】:
我有一台安装了 Hadoop 和 Spark 的机器。下面是我目前的环境。
python3.6
spark1.5.2
Hadoop 2.7.1.2.3.6.0-3796
我试图通过构建 ipython 内核来连接 jupyter notebook 以连接到 spark。
已写入 2 个新文件。
/root/.ipython/profile_pyspark/ipython_notebook_config.py
/root/.ipython/profile_pyspark/startup/00-pyspark-setup.py
/root/anaconda3/share/jupyter/kernels/pyspark/kernel.json
kernel.json
{
"display_name": "PySpark (Spark 2.0.0)",
"language": "python",
"argv": [
"/root/anaconda3/bin/python3",
"-m",
"ipykernel",
"--profile=pyspark"
],
"env": {
"CAPTURE_STANDARD_OUT": "true",
"CAPTURE_STANDARD_ERR": "true",
"SEND_EMPTY_OUTPUT": "false",
"PYSPARK_PYTHON" : "/root/anaconda3/bin/python3",
"SPARK_HOME": "/usr/hdp/current/spark-client/"
}
}
00-pyspark-setup.py
import os
import sys
os.environ["PYSPARK_PYTHON"] = "/root/anaconda3/bin/python"
os.environ["SPARK_HOME"] = "/usr/hdp/current/spark-client"
os.environ["PYLIB"] = os.environ["SPARK_HOME"] + "/python/lib"
spark_home = os.environ.get('SPARK_HOME', None)
sys.path.insert(0, os.environ["PYLIB"] +"/py4j-0.8.2.1-src.zip")
sys.path.insert(0, os.environ["PYLIB"] +"/pyspark.zip")
exec(open(os.path.join(spark_home, 'python/pyspark/shell.py')).read())
ipython_notebook_config.py
c = get_config()
c.NotebookApp.port = 80
然后,当我运行以下内容时
jupyter notebook --profile=pyspark
笔记本运行良好。然后,我将内核更改为“PySpark (Spark 2.0.0)”,并假设使用“sc”火花上下文。但是,当我输入“sc”时,它什么也不显示。
所以,由于 sc 无法初始化,如果我想运行以下命令,它失败了!
nums = sc.parallelize(xrange(1000000))
谁能帮助我如何配置 jupyter notebook 以与 Spark 对话?
【问题讨论】:
-
这里似乎发生了很多事情。尝试更多地关注您的问题/问题。我建议将您的 Spark 2.0 问题转移到另一个问题。
标签: apache-spark pyspark ipython-notebook jupyter ssh-tunnel