【发布时间】:2020-08-05 22:43:21
【问题描述】:
我们有一个 spark 作业,它读取一个 csv 文件并应用一系列转换,并将结果写入一个 orc 文件,
spark 作业分为近 20 个阶段并运行大约一个小时
input csv file size: 10 GB
spark-submit 作业资源配置:
driver-memory= 5 GB
num-executors= 2
executor-core= 3
executor-memory= 20 GB
EC2 实例类型:r5d.xlarge 即32GB Memory 和4 vCPU 附加128 GB EBS volume
EMR 集群由1 Master Node 和2 Core machines 组成
当我们在上述集群配置上运行 spark 作业时,cpu 利用率仅接近10-15%
我们的要求是最大限度地提高我的 spark 作业的 EC2 实例的 cpu 利用率。
感谢任何建议!
【问题讨论】:
-
无论是工作不工作还是有问题,您都可以添加 cmets...
标签: apache-spark amazon-ec2 amazon-emr