【问题标题】:How to setup dependent components of python spark job on aws EMR cluster如何在aws EMR集群上设置python spark作业的依赖组件
【发布时间】:2018-10-26 11:47:29
【问题描述】:

我写了一个spark程序,需要在EMR集群上执行。但是python程序正在使用一些依赖文件和模块。那么有什么办法可以在正在运行的集群上设置依赖组件吗? 我们可以挂载 s3 存储桶并挂载一个集群节点,并且可以将所有依赖组件放在 s3 上吗?这是个好主意吗?使用 Python 我们如何在 EMR 上挂载 s3 存储桶?

【问题讨论】:

  • 你说的是 spark-submit 吗?
  • 是的,我正在使用 spark-submit 运行程序。
  • 你的论点是什么?
  • 所以我在设置集群时没有提供任何参数,但是有一些模块和一些文件是由应用程序导入的。当我运行 python 应用程序时,那些不存在的模块抛出异常。
  • 你能证明这个例外吗?

标签: pyspark amazon-emr


【解决方案1】:
  • (在集群创建期间):您可以使用 Amazon EMR 引导程序custom actions,它能够在创建集群时执行 bash 脚本。您可以使用此脚本安装所有依赖组件。引导操作将在集群的所有节点上执行。

  • (在正在运行的集群上):您可以使用 Amazon EMR 步骤选项创建 s3-dist-cp 命令运行程序步骤以从 s3 复制文件。

【讨论】:

    猜你喜欢
    • 2018-11-13
    • 1970-01-01
    • 2018-10-19
    • 1970-01-01
    • 2020-11-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-05-30
    相关资源
    最近更新 更多