【发布时间】:2014-06-29 19:52:17
【问题描述】:
我将一个客户 jar 上传到 S3,并希望在 EMR 中运行该作业。 所以在集群配置中,我选择了 1 个 master 和 2 个 worker,指定了 jar 路径、输入路径和输出路径。一切都很好。
一旦它开始运行客户jar,我发现我无法查看工作任务,因为它告诉我“没有可用的任务”,这很奇怪。而且做完工作后发现emr一共创建了306个task,但是查看每个task的syslog发现都是按顺序执行的。比如maptask260在19:40:35结束,maptask261从19:40:40开始,maptask262在261完成后开始。
我了解 EMR 根据作业大小创建一堆任务,我认为所有任务应该并行执行,这意味着,一旦作业开始运行,它应该创建,比如说 360 任务,并且所有任务应该同时开始工作。
不确定是我理解有误还是配置有误?
有人可以帮忙吗?
【问题讨论】:
标签: amazon-web-services emr amazon-emr