【问题标题】:Hadoop shuffle uses which protocol?Hadoop shuffle 使用哪种协议?
【发布时间】:2011-11-27 11:27:50
【问题描述】:

在 Hadoop 数据的 shuffle 阶段,映射的数据在集群的节点之间传输 根据减速器的分区。 Hadoop 使用什么协议在 reduce 阶段跨节点执行数据混洗?

【问题讨论】:

    标签: hadoop protocols mapreduce distributed-computing


    【解决方案1】:

    我第一次真的笑了,但是整个洗牌和合并都是由HTTPServlet完成的。

    您可以在匿名类MapOutputServlet 中的Tasktrackers 源代码中看到这一点,它获取一个带有任务和作业ID 的HTTP 请求,然后它将传入的输入流传输到磁盘上的本地文件系统中。

    【讨论】:

    • HTTP 效率低下吗?有哪些替代方案?
    • 是的,RPC 将是一个替代方案。一位同事说网络堆栈针对 HTTP 的使用进行了优化(真的吗?),所以这可能会更快。但我认为你应该在邮件列表上问这个,为什么他们选择 HTTP 而不是其他任何东西。
    猜你喜欢
    • 2011-08-27
    • 1970-01-01
    • 1970-01-01
    • 2014-04-14
    • 2013-04-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多