发布文章 昨天好不容易可以在centos上使用jupyter-notebook,但是在代码块写入import pyspark时却提示无模块,
今天看到一篇博客,原来是没有配置/etc/profile中PYTHONPATH
使用jupyter-notebook --allow-root:
http://blog.51cto.com/175779/2045728
其中py4j-0.10.7-src.zip解压命令参考博客:
https://blog.csdn.net/wxyjuly/article/details/79398559
jupyter-notebook使用pyspark参考博客:
https://blog.csdn.net/j790675692/article/details/52300083
================================================
分割线
上面的方法只是成功可以导入pyspark,然而并没有啥用。当输入sc.textFile()时仍旧报错。
当使用jupyter-notebook --allow-root时打开的notebook并不能使用pyspark。
然后找书和博客,好多使用下面的命令可以成功使用
PYSPARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
然而我的仍旧不行,心塞
后来想到可能是版本的问题,然后我开始尝试了spark2.3换到了spark2.2,anacon3尝试了两个版本,还试了anaconda2。安装finadspark
期间还想到用eclipse安装pydev插件来使用pyspark。
但是统统失败了,沮丧
最后今天下午看到一篇微博,使用的是spark2.2和anaconda3-4.2.0,最后可以成功运行。
博客:https://blog.csdn.net/NJZhuJinhua/article/details/79441217#jupyter与pyspark实现结合spark与python的notebook
我安装了这两个版本,安装完成后,配置好环境变量,终端输入
PYSPARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
环境变量
pyspark教程
https://www.datacamp.com/community/tutorials/apache-spark-python#PySpark
anaconda下载连接
https://repo.continuum.io/archive/
pyspark api使用教程
https://spark.apache.org/docs/2.2.0/api/python/index.html