【问题标题】:Which protocol is used in Hadoop to copy the data from Mappers to Reducers?Hadoop 中使用哪种协议将数据从 Mappers 复制到 Reducers?
【发布时间】:2017-02-24 22:24:46
【问题描述】:

我对 Hadoop 框架用于将映射器输出(本地存储在映射器节点上)复制到减速器任务(不在同一节点上运行)的传输协议有一些疑问。 - 阅读一些博客,它使用 HTTP 进行 Shuffle 阶段 - 还读到 HDFS 数据传输(由 mapreduce 作业使用)是直接使用 TCP/IP 套接字完成的。 - 阅读 Hadoop The Definitive 指南中的 RPC。

任何指针/参考都会有很大帮助。

【问题讨论】:

    标签: http hadoop mapreduce hdfs tcp-ip


    【解决方案1】:

    Hadoop 使用HTTPServlets 进行中间数据混洗。见下图(取自 Wang 等人的JVM-Bypass for Efficient Hadoop Shuffling):

    请查看 2013 年发布的“JVM-Bypass for Efficient Hadoop Shuffling”工作 (full-text available)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-04-07
      • 1970-01-01
      • 2017-04-11
      • 1970-01-01
      • 2011-08-27
      • 1970-01-01
      • 2014-04-14
      • 1970-01-01
      相关资源
      最近更新 更多