【问题标题】:Write intermediate Amazon EMR task output to S3将中间 Amazon EMR 任务输出写入 S3
【发布时间】:2016-10-15 21:05:07
【问题描述】:

我正在运行一个输出数千 GB 数据的 EMR 作业。每个 map 任务输出 10 GB 的数据,据我所知,这些中间输出存储在运行 map 任务的机器上的磁盘上。因此,在同一台机器处理了多个映射任务之后,它会耗尽磁盘空间来存储这些映射任务的中间结果。我知道如何在 S3 上存储最终结果(在运行 reducer 之后),但是有没有办法让中间输出(映射器的结果)也存储在 S3 上?

不幸的是,仅仅分配更多机器(或具有更多内存的机器)并不是一个实用的解决方案,因为我将在数百 TB 的数据上运行相同的作业。

任何帮助将不胜感激。

【问题讨论】:

    标签: hadoop amazon-s3 amazon-emr


    【解决方案1】:

    万一其他人遇到这个问题,我无法找到一种方法来使用 S3 来存储 map/reduce 任务的中间结果。但是,我可以通过升级到 EMR 4.x 来绕过这个问题,然后将 EBS 卷附加到集群实例,详见此处http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-storage-ebs.html

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-01-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-03-23
      • 2018-07-01
      相关资源
      最近更新 更多