MapReduce
一个分布式运算程序的程序框架 基于Hadoop的数据的分析应用 的核心框架
-
核心功能: 将用户的业务逻辑代码 和 自带的默认组件 整合成一个完整的分布式运算程序 并运行在一个Hadoop集群上
-
优点: 1) 易于编程 2) 扩展性好 3) 容错性高 4) 适合PB级别以上海量数据的离线处理
缺点: 1) 不可以进行实时计算 2) 不擅长流式计算 3) 不擅长DAG(有向图)计算
-
编程思想
WordCount 数据流走向
MapReduce 进程
-
MapReduce 的编程规范
用户编写的程序分为Mapper Reducer Driver