Hadoop 重要的计算框架
Mapreduce:我们至少应该学习以下内容

  • Mapreduce的工作原理是什么?
  • Mapreduce的工作流程是什么?
  • Mapreduce的编程模型是什么?
  • shuffle是什么?
  • partition是什么?
  • combiner是什麽?
    他们三者之间的关系是什么?
  • map的个数由谁来决定,如何计算?
  • reduce个数由谁来决定,如何计算?

Hadoop MapReduce是一个软件框架,我们可以使用它轻松地编写应用程序,以可靠的、容错的方式并行处理大量数据。MapReduce是一种包含Map和Reduce两种算法的编程技术。

Map任务:Map stage或mapper的工作是处理输入并将其转换为键/值对形式的较小部分。

Reduce任务:Reduce阶段或减速器的工作是将阶段数据输出处理为更小的元组(键/值对)。这个阶段结合了shuffle和reduce任务。

MapReduce- 计算框架

相关文章: