【发布时间】:2020-05-19 20:03:12
【问题描述】:
设置:最新 (5.29) AWS EMR、spark、1 个主节点 1 个节点。
第 1 步。我使用 S3Select 解析文件并收集所有文件密钥以从 S3 中提取。 步骤 2. 使用 pyspark 在循环中迭代键并执行以下操作
火花 。读 .format("s3selectCSV") .load(键) .limit(超高值) .show(超高值)
花费了 x 分钟。
当我将集群增加到 1 个主节点和 6 个节点时,我没有看到时间差异。在我看来,我没有使用增加的核心节点。
其他一切,明智的配置都是开箱即用的默认设置,我没有设置任何东西。
那么,我的问题是集群大小对于使用 EMR、Spark 从 S3 读取和检查(比如记录或打印)数据是否重要?
【问题讨论】:
标签: pyspark amazon-emr amazon-s3-select