【问题标题】:Expected Run time of AWS Glue jobAWS Glue 作业的预期运行时间
【发布时间】:2020-06-19 11:19:04
【问题描述】:

我在 AWS 胶水中运行 1mb 数据的作业。完成需要 2.5 秒。

Pyspark 框架用于这项工作。

因此,对于 1gb 的数据,这项工作应该需要大约 2.5 * 1000 = 2500 秒才能完成。

但是当我在 1gb 的数据上运行该作业时,只需要 20 秒。 这怎么可能?

【问题讨论】:

    标签: amazon-web-services apache-spark pyspark apache-spark-sql aws-glue


    【解决方案1】:

    默认情况下,Glue 作业配置为使用 10 个 DPU 运行,其中每个 DPU 具有 16 GB RAM 和 4 个 vCore。因此,在您的情况下,即使您使用 2 个 DPU 运行作业,您仍在使用集群。

    执行时间并没有真正按照您计算的那样工作,而且还有很多其他因素。如果您想了解更多关于 Glue 平移资源的信息,请参阅this 链接。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-06-21
      • 2022-06-10
      • 2021-07-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-08-25
      • 2019-11-19
      相关资源
      最近更新 更多