【发布时间】:2016-10-15 21:05:07
【问题描述】:
我正在运行一个输出数千 GB 数据的 EMR 作业。每个 map 任务输出 10 GB 的数据,据我所知,这些中间输出存储在运行 map 任务的机器上的磁盘上。因此,在同一台机器处理了多个映射任务之后,它会耗尽磁盘空间来存储这些映射任务的中间结果。我知道如何在 S3 上存储最终结果(在运行 reducer 之后),但是有没有办法让中间输出(映射器的结果)也存储在 S3 上?
不幸的是,仅仅分配更多机器(或具有更多内存的机器)并不是一个实用的解决方案,因为我将在数百 TB 的数据上运行相同的作业。
任何帮助将不胜感激。
【问题讨论】:
标签: hadoop amazon-s3 amazon-emr