【问题标题】:how to access pyspark from jupyter notebook如何从 jupyter notebook 访问 pyspark
【发布时间】:2016-06-25 01:55:50
【问题描述】:

我在 Ubuntu 14.04 上的 ipython 笔记本中使用 pyspark [与 python 2.7] 相当成功,方法是为 spark 创建一个特殊的配置文件并通过调用 $ipython notebook --profile spark 启动笔记本。许多网站都提供了创建 spark 配置文件的机制,但我使用了here 中给出的机制。

并且 $HOME/.ipython/profile_spark/startup/00-pyspark-setup.py 包含以下代码

import os
import sys
# Configure the environment
if 'SPARK_HOME' not in os.environ:
    os.environ['SPARK_HOME'] = '/home/osboxes/spark16'
# Create a variable for our root path
SPARK_HOME = os.environ['SPARK_HOME']
# Add the PySpark/py4j to the Python Path
sys.path.insert(0, os.path.join(SPARK_HOME, "python", "build"))
sys.path.insert(0, os.path.join(SPARK_HOME, "python"))

我刚刚为我的学生创建了一个新的 Ubuntu 16.04 虚拟机,我希望他们在 ipython notebook 中运行 pyspark 程序。 Python,Pyspark 运行良好。我们使用的是 Spark 1.6。

但是我发现当前版本的 ipython notebook [或 jupyter notebook] 无论是通过 Anaconda 下载还是使用 sudo pip install ipython 安装 .. 不支持 --profile 选项,所有配置参数都必须在~/.jupyter/jupyter_notebook_config.py 文件。

有人可以帮我解决我需要放入此文件的配置参数吗?还是有替代解决方案?我已经尝试过 findshark() 解释 here 但无法使其工作。 Findspark 已安装但 findspark.init() 失败,可能是因为它是为 python 3 编写的。

我面临的挑战是,在我的机器上安装的旧 ipython 上一切正常,但我的学生从头开始安装所有东西,无法在他们的 VM 上运行 pyspark。

【问题讨论】:

    标签: pyspark jupyter-notebook


    【解决方案1】:

    我在 ~/apps/spark-1.6.2-bin-hadoop2.6/bin/pyspark 本地使用 spark 只是为了测试目的

    PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS="notebook"   ~/apps/spark-1.6.2-bin-hadoop2.6/bin/pyspark
    

    【讨论】:

      【解决方案2】:

      通过查看this page 中给出的建议,我为自己的问题找到了一个非常简单的答案。

      忘记所有配置文件等。只需使用此命令启动 notebook -- $IPYTHON_OPTS="notebook" pyspark

      就是这样。

      显然,SPARK 的路径必须设置为given here。 如果 Py4j 出现错误,请查看 this page

      有了这个,你就可以开始了。火花上下文在 sc 中可用,所以不要再次导入它

      【讨论】:

        【解决方案3】:

        使用 Anaconda 4.3.0 中的 Python 2.7.13 和 Ubuntu 16.04 上的 Spark 2.1.0:

        $ cd
        $ gedit .bashrc
        

        添加以下行(其中“*****”是正确的路径):

        export SPARK_HOME=*****/spark-2.1.0-bin-hadoop2.7
        export PATH=$SPARK_HOME/bin:$PATH
        export PATH=$SPARK_HOME/sbin:$PATH
        export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
        export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
        

        保存,然后执行:

        $ *****/anaconda2/bin/.pip install py4j
        $ cd
        $ source .bashrc
        

        检查它是否适用于:

        $ ipython
        In [1]: import pyspark
        

        更多详情请转至here

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2019-04-19
          • 1970-01-01
          • 2019-11-25
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2021-08-17
          • 1970-01-01
          相关资源
          最近更新 更多