【发布时间】:2019-07-18 21:35:46
【问题描述】:
在我的 hadoop 集群中,他们在 python 默认路径以外的其他路径中安装了 anaconda 包。当我尝试在 pyspark 中访问 numpy 时出现以下错误
ImportError: 没有名为 numpy 的模块
我正在使用 oozie 调用 pyspark。
我尝试在以下方法中提供此自定义 python 库路径
使用 oozie 标签
<property>
<name>oozie.launcher.mapreduce.map.env</name>
<value>PYSPARK_PYTHON=/var/opt/teradata/anaconda2/bin/python2.7</value>
</property>
使用 spark 选项标签
<spark-opts>spark.yarn.appMasterEnv.PYSPARK_PYTHON=/var/opt/teradata/anaconda2/bin/python2.7 --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=/var/opt/teradata/anaconda2/bin/python2.7 --conf spark.pyspark.python=/var/opt/teradata/anaconda2/bin/python2.7 --conf spark.pyspark.driver.python=/var/opt/teradata/anaconda2/bin/python2.7</spark-opts>
没有任何作用。
当我运行纯 python 脚本时,它工作正常。问题正在传递给 pyspark
即使我在 pyspark 标题中也将其作为
#! /usr/bin/env /var/opt/teradata/anaconda2/bin/python2.7
当我在我的 pyspark 代码中打印 sys.path 时,它仍然给我低于默认路径
[ '/usr/lib/python27.zip', '/usr/lib64/python2.7', '/usr/lib64/python2.7/plat-linux2', '/usr/lib64/python2.7/lib-tk', '/usr/lib64/python2.7/lib-old', '/usr/lib64/python2.7/lib-dynload', '/usr/lib64/python2.7/site-packages', '/usr/local/lib64/python2.7/site-packages', '/usr/local/lib/python2.7/site-packages', '/usr/lib/python2.7/site-packages']
【问题讨论】:
标签: python numpy pyspark oozie