基本架构
分布式存储系统HDFS:
a.分布式存储系统
b.提供了高可靠、高扩展性和高吞吐率的数据存储服务
资源管理系统YARN:
a.负责集群资源的统一管理和调度
分布式计算框架
a.分布式计算框架
b.具有易于编程、高容错性和高扩展性等优点
Hadoop2.0的生态系统
HIVE:构建在HADOOP之上的数据仓库,数据计算使用MR,数据存储使用HDFS
类似SQL,可认为是一个SQL和MR的语言翻译器
PIG:构建在HADOOP之上的数据仓库,数据计算使用MR,数据存储使用HDFS
定义了一种数据流语言--Pig Latin,一种新语言
Mahout:基于Hadoop的机器学习和数据挖掘的分布式计算框架,实现三大类算法
a.推荐 b.聚类 c.分类
Sqoop:数据同步工具,是连接Hadoop与传统数据库之间的桥梁,支持多种数据库
MySQL、DB2等,本质上是一个MR程序
Flume:同Sqoop功能相似
Oozie:作业流调度系统,各种计算框架和作业调度种类很多(Streaming,HQL,Pig)
这些作业可能有依赖关系,或者是周期性作业、定时作业,Oozie可以作为调度
系统来管理