【发布时间】:2015-03-03 16:46:56
【问题描述】:
我是并行计算的新手,刚开始在 Amazon AWS 上试用 MPI 和 Hadoop+MapReduce。但我对何时使用其中一种感到困惑。
例如,我看到的一个常见的经验法则可以总结为...
- 大数据、非迭代、容错 => MapReduce
- 速度、小数据、迭代、非 Mapper-Reducer 类型 => MPI
但是,我也看到了在 MPI (MR-MPI) 上的 MapReduce 实现,它不提供容错,但在某些基准测试中,seems to be 比 Hadoop 上的 MapReduce 更有效,并且似乎使用 out-of- 处理大数据核心内存。
相反,在具有分布式文件系统 (HDFS) 的新一代 Hadoop Yarn 上也有 MPI 实现 (MPICH2-YARN)。
此外,MPI 中似乎有一些规定(Scatter-Gather、Checkpoint-Restart、ULFM 和其他 fault tolerance)模仿 MapReduce 范例的几个特征。
Mahout、Mesos 和 Spark 如何融入这一切?
在选择 Hadoop MapReduce、MPI、Mesos、Spark 和 Mahout(或两者的组合)时可以使用哪些标准?
【问题讨论】:
-
在我问了这个问题之后,我遇到了更多的选择(以增加混乱)——比如 Akka,它似乎并不局限于像 MapReduce 这样的“明显并行”的场景,同时也具有容错性并具有 Infiniband (TCP) 等的绑定。
标签: hadoop parallel-processing mapreduce mpi