【发布时间】:2020-07-26 21:33:11
【问题描述】:
为 Python 工作节点设置 sys 路径的“正确”方法是什么?
工作节点从主节点“继承”系统路径是个好主意吗?
通过.bashrc 在工作节点中设置路径是个好主意吗?还是有一些标准的 Spark 设置方式?
【问题讨论】:
标签: apache-spark pyspark
为 Python 工作节点设置 sys 路径的“正确”方法是什么?
工作节点从主节点“继承”系统路径是个好主意吗?
通过.bashrc 在工作节点中设置路径是个好主意吗?还是有一些标准的 Spark 设置方式?
【问题讨论】:
标签: apache-spark pyspark
设置环境变量的标准方法,包括PYSPARK_PYTHON,是使用conf/spark-env.sh文件。 Spark 附带一个模板文件 (conf/spark-env.sh.template),其中解释了最常见的选项。
这是一个普通的 bash 脚本,因此您可以像使用 .bashrc 一样使用它
您可以在Spark Configuration Guide 中找到更多详细信息。
【讨论】:
通过以下代码,您可以仅更改当前作业的python路径,这也允许驱动程序和执行程序使用不同的python路径:
PYSPARK_DRIVER_PYTHON=/home/user1/anaconda2/bin/python PYSPARK_PYTHON=/usr/local/anaconda2/bin/python pyspark --master ..
【讨论】:
您可以执行以下任一操作 -
在配置中,
更新SPARK_HOME/conf/spark-env.sh,添加以下行:
# for pyspark
export PYSPARK_PYTHON="path/to/python"
# for driver, defaults to PYSPARK_PYTHON
export PYSPARK_DRIVER_PYTHON="path/to/python"
或
在代码中,添加:
import os
# Set spark environments
os.environ['PYSPARK_PYTHON'] = 'path/to/python'
os.environ['PYSPARK_DRIVER_PYTHON'] = 'path/to/python'
【讨论】:
我的案例的错误是:
异常:worker 中的 Python 与 2.6 版本不同 驱动程序 2.7,PySpark 无法使用不同的次要版本运行
有帮助的解决方案:
export PYSPARK_PYTHON=python2.7
export PYSPARK_DRIVER_PYTHON=python2.7
jupyter notebook
当然,我在worker上本地安装了python2.7。
我想我也设置 PATH 也很重要。
我不依赖当地工人的设置。该路径是从设置 jupyter-notebook 的边缘节点继承而来的。
【讨论】: