1、MapReduce定义?

       MapReduce是一个分布式运算程序的编程框架。核心功能是将用户编写的业务逻辑代码和自带默认组件整合成完整的分布式运算程序。并发运行在一个Hadoop集群上。

2、MapReduce的优缺点?

      优点:

     (1)MapReduce易于编程:它简单的实现一些接口就可以完成一个分布式的程序。

     (2)良好的扩展性

     (3)适用PB以上海量的数据离线处理

    缺点:

    (1)不擅长实时计算

    (2)不擅长流式计算(输入的数据集是静态的)

    (3)不擅长DAG(有向图)计算

3、MapReduce核心编程

需求:统计其中每个单词出现的总次数

           查询结果:a-p一个文件,q-z一个文件

Mapreduce基础知识

      上图体现了MapReduce的实际工作的过程以及原理,思考每一步的细节,才能掌握MapReduce。笔记虽少,但都是认为学习的过程中非常核心的概念以及原理。

 

相关文章: