http://note.youdao.com/noteshare?id=db6a42debfcb09a1a6d54a497e760f68&sub=649D30D6AD144AB8AC13802E61B47E3E

1、map具备本地化优势策略 
map执行时优先选择在存储HDFS数据的服务器上执行,其次在同机架的服务器上执行,最次在其他机架服务器上执行。 
hadoop执行第一步是将输入数据分片(分成固定大小),单个分片大小要与HDFS最小数据单元相同,因为如果一个分片大于HDFS单元的话,就无法保证分片数据在同一台服务器上。如果跨服务器就会增加网络传输数据的时间消耗。
2、reduce 不具备本地化优势策略 
reduce任务执行不具备就近原则,之后有个shuffer阶段,会通过网络将map执行结果传输之reduce处理的服务器中,在进行计算。
3、.针对有一个128M的数据,依据本地化优先策略,怎样达到高速并发执行的效果?
因为128M有三个副本,设置切片大小128/3M,3个节点,每个节点处理三分之一,在依据本地化优先策略下,可以达到高速并发执行的效果。
示意图如下:
MapReduce 本地化优先策略
MapReduce 本地化优先策略

MapReduce 本地化优先策略
MapReduce 本地化优先策略

相关文章:

  • 2021-10-16
  • 2021-08-16
  • 2022-02-27
  • 2021-07-12
  • 2021-07-22
  • 2021-12-04
  • 2022-12-23
猜你喜欢
  • 2021-04-05
  • 2021-05-10
  • 2021-04-18
  • 2021-11-08
  • 2021-09-12
相关资源
相似解决方案