【发布时间】:2019-06-01 00:16:55
【问题描述】:
使用构建工具 (setuptools) 将我的 python 代码打包为 .egg 格式。我想通过 azure data-bricks 中的作业运行这个包。
我可以通过以下命令在我的本地机器上执行包。
spark-submit --py-files ./dist/hello-1.0-py3.6.egg hello/pi.py
1) 将包复制到DBFS路径如下,
work-space -> User -> Create -> Library -> Library Source (DBFS) -> Library Type (Python Egg) -> Uploaded
2) 在新集群模式下创建任务为 spark-submit 的作业
3) 为任务配置以下参数,
["--py-files","dbfs:/FileStore/jars/8c1231610de06d96-hello_1_0_py3_6-70b16.egg","hello/pi.py"]
实际:/databricks/python/bin/python: can't open file '/databricks/driver/hello/hello.py': [Errno 2] No such file or directory
预期:作业应该成功执行。
【问题讨论】:
-
你安装了8c1231610de06d96-hello_1_0_py3_6-70b16.egg吗?您是否创建了一个新集群?
标签: python azure apache-spark pyspark databricks