【发布时间】:2018-10-26 11:47:29
【问题描述】:
我写了一个spark程序,需要在EMR集群上执行。但是python程序正在使用一些依赖文件和模块。那么有什么办法可以在正在运行的集群上设置依赖组件吗? 我们可以挂载 s3 存储桶并挂载一个集群节点,并且可以将所有依赖组件放在 s3 上吗?这是个好主意吗?使用 Python 我们如何在 EMR 上挂载 s3 存储桶?
【问题讨论】:
-
你说的是 spark-submit 吗?
-
是的,我正在使用 spark-submit 运行程序。
-
你的论点是什么?
-
所以我在设置集群时没有提供任何参数,但是有一些模块和一些文件是由应用程序导入的。当我运行 python 应用程序时,那些不存在的模块抛出异常。
-
你能证明这个例外吗?
标签: pyspark amazon-emr