【发布时间】:2011-06-03 04:54:05
【问题描述】:
如果我错了,请纠正我,但我的理解是 Hadoop 不使用 MPI 进行不同节点之间的通信。
这是什么技术原因?
我可以大胆猜测一下,但我对 MPI 是如何“在幕后”实施的了解不够,无法知道我是否正确。
想想看,我也不完全熟悉 Hadoop 的内部结构。我在概念层面了解框架(map/combine/shuffle/reduce 以及它如何在高层次上工作),但我不知道具体的实现细节。我一直假设 Hadoop 通过 TCP 连接传输序列化数据结构(可能是GPBs),例如在随机播放阶段。如果这不是真的,请告诉我。
【问题讨论】:
标签: tcp hadoop protocol-buffers mpi distributed-computing