Hadoop：在迭代映射作业之间维护内存缓存答案

【问题标题】：Hadoop: maintain memory cache between iterated map jobsHadoop：在迭代映射作业之间维护内存缓存
【发布时间】：2013-09-18 21:16:27
【问题描述】：

我想在集群中迭代地调用 map-reduce 作业。在每次迭代中，映射器应处理大约 10000 条大容量记录。在每次迭代中，主节点使用不同的参数调用这些映射器，但输入记录保持不变。每次调用映射器时都不需要加载这些记录；在迭代中将它们缓存在主内存中会很棒，并且只需处理给定的新参数值。

我计划使用运行 Hadoop 的 AWS Elastic MapReduce，而我的实现使用 Python，因此 Java API 似乎没有帮助。是否可以在该架构中实现这样的缓存？如果不是，AWS 或其他公有云中的合适架构是什么？