【发布时间】:2016-06-25 01:55:50
【问题描述】:
我在 Ubuntu 14.04 上的 ipython 笔记本中使用 pyspark [与 python 2.7] 相当成功,方法是为 spark 创建一个特殊的配置文件并通过调用 $ipython notebook --profile spark 启动笔记本。许多网站都提供了创建 spark 配置文件的机制,但我使用了here 中给出的机制。
并且 $HOME/.ipython/profile_spark/startup/00-pyspark-setup.py 包含以下代码
import os
import sys
# Configure the environment
if 'SPARK_HOME' not in os.environ:
os.environ['SPARK_HOME'] = '/home/osboxes/spark16'
# Create a variable for our root path
SPARK_HOME = os.environ['SPARK_HOME']
# Add the PySpark/py4j to the Python Path
sys.path.insert(0, os.path.join(SPARK_HOME, "python", "build"))
sys.path.insert(0, os.path.join(SPARK_HOME, "python"))
我刚刚为我的学生创建了一个新的 Ubuntu 16.04 虚拟机,我希望他们在 ipython notebook 中运行 pyspark 程序。 Python,Pyspark 运行良好。我们使用的是 Spark 1.6。
但是我发现当前版本的 ipython notebook [或 jupyter notebook] 无论是通过 Anaconda 下载还是使用 sudo pip install ipython 安装 .. 不支持 --profile 选项,所有配置参数都必须在~/.jupyter/jupyter_notebook_config.py 文件。
有人可以帮我解决我需要放入此文件的配置参数吗?还是有替代解决方案?我已经尝试过 findshark() 解释 here 但无法使其工作。 Findspark 已安装但 findspark.init() 失败,可能是因为它是为 python 3 编写的。
我面临的挑战是,在我的机器上安装的旧 ipython 上一切正常,但我的学生从头开始安装所有东西,无法在他们的 VM 上运行 pyspark。
【问题讨论】: