将中间 Amazon EMR 任务输出写入 S3答案

【问题标题】：Write intermediate Amazon EMR task output to S3将中间 Amazon EMR 任务输出写入 S3
【发布时间】：2016-10-15 21:05:07
【问题描述】：

我正在运行一个输出数千 GB 数据的 EMR 作业。每个 map 任务输出 10 GB 的数据，据我所知，这些中间输出存储在运行 map 任务的机器上的磁盘上。因此，在同一台机器处理了多个映射任务之后，它会耗尽磁盘空间来存储这些映射任务的中间结果。我知道如何在 S3 上存储最终结果（在运行 reducer 之后），但是有没有办法让中间输出（映射器的结果）也存储在 S3 上？

不幸的是，仅仅分配更多机器（或具有更多内存的机器）并不是一个实用的解决方案，因为我将在数百 TB 的数据上运行相同的作业。