分布式并行计算框架MapReduce

什么是计算框架?

指实现某项任务或某项工作从开始到结束的计算过程或流的结构。用于去解决或者处理某个复杂的计算问题。
分布式并行计算框架MapReduce详解

什么是分布式计算?

是一种计算方法,是将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。
分布式并行计算框架MapReduce详解

Hadoop为什么比传统技术方案快?

核心原因一:使用分布式存储。
核心原因二:使用分布式并行计算框架。

理解MapReduce思想

MapReduce的思想核心是“分而治之,先分后合”。即将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终进行合并。适用于大量复杂的、时效性不高的任务处理场景(大规模离线数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。

MapReduce由两部分组成,分别是Map 和Reduce两部分。

Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。

Reduce负责“合”,即对map阶段的结果进行全局汇总。

这两个阶段合起来正是MapReduce思想的体现。

MapReduce并行计算

HDFS存储数据时对大于128M的数据会进行数据切分,每128M一个数据块,数据块会分散、分布存储到HDFS。
MapReduce在进行计算前会复制计算程序,每个数据块会分配一个独立的计算程序副本(MapTack)。计算时多个数据块几乎同时被读取并计算,但是计算程序完全相同。最终将各个计算程序计算的结果进行汇总(Reduce来汇总)
分布式并行计算框架MapReduce详解

相关文章:

  • 2021-08-01
  • 2021-08-08
  • 2021-11-15
猜你喜欢
  • 2021-08-11
  • 2021-12-29
  • 2022-01-13
  • 2021-07-21
  • 2021-08-30
相关资源
相似解决方案