【发布时间】:2020-10-07 10:28:11
【问题描述】:
我有一个存档(基本上是一个捆绑的 conda 环境 + 我的应用程序),我可以在 yarn master 模式下轻松地与 pyspark 一起使用:
PYSPARK_PYTHON=./pkg/venv/bin/python3 \
spark-submit \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./pkg/venv/bin/python3 \
--master yarn \
--deploy-mode cluster \
--archives hdfs:///package.tgz#pkg \
app/MyScript.py
这按预期工作,这不足为奇。
如果 MyScript.py 在 inside package.tgz 中,我该如何运行它。不在我的本地文件系统上?
我想用例如替换我的命令的最后一行。 ./pkg/app/MyScript.py 但随后 spark 抱怨:java.io.FileNotFoundException: File file:/home/blah/pkg/app/MyScript.py does not exist。
我当然可以先提取它,将它单独放在 hdfs 上...有一些解决方法,但由于我将所有东西都放在一个不错的地方,我很想使用它。
如果相关,这是 CDH 上的 spark 2.4.0、python 3.7。
【问题讨论】:
标签: python pyspark hadoop-yarn