【发布时间】:2020-06-19 11:19:04
【问题描述】:
我在 AWS 胶水中运行 1mb 数据的作业。完成需要 2.5 秒。
Pyspark 框架用于这项工作。
因此,对于 1gb 的数据,这项工作应该需要大约 2.5 * 1000 = 2500 秒才能完成。
但是当我在 1gb 的数据上运行该作业时,只需要 20 秒。 这怎么可能?
【问题讨论】:
标签: amazon-web-services apache-spark pyspark apache-spark-sql aws-glue