【发布时间】:2013-05-06 03:46:13
【问题描述】:
我正在 EMR 上运行一系列 MapReduce 作业。但是,第三个MapReduce作业需要第二个MapReduce作业的数据输出,而输出本质上是超过一百万个key-value对(key和value都小于1KB)。有没有一种好方法可以将此信息存储在与 EMR 相同的机器上的分布式存储中,以便后续作业可以访问该信息?我看了DistributedCache,但它更多的是用于存储文件?我不确定 Hadoop 是否针对存储一百万个小文件进行了优化..
或者也许我可以以某种方式使用另一个MapReduce 作业将所有键值对组合到一个输出文件中,然后将整个文件放入DistributedCache。
请指教。谢谢!
【问题讨论】:
标签: java hadoop amazon-web-services distributed-caching emr