基本架构

Hadoop基本框架及生态

分布式存储系统HDFS:

a.分布式存储系统

b.提供了高可靠、高扩展性和高吞吐率的数据存储服务

资源管理系统YARN:

a.负责集群资源的统一管理和调度

分布式计算框架

a.分布式计算框架

b.具有易于编程、高容错性和高扩展性等优点

 

 

Hadoop2.0的生态系统

Hadoop基本框架及生态

HIVE:构建在HADOOP之上的数据仓库,数据计算使用MR,数据存储使用HDFS

类似SQL,可认为是一个SQL和MR的语言翻译器

PIG:构建在HADOOP之上的数据仓库,数据计算使用MR,数据存储使用HDFS

定义了一种数据流语言--Pig Latin,一种新语言

Mahout:基于Hadoop的机器学习和数据挖掘的分布式计算框架,实现三大类算法

a.推荐 b.聚类 c.分类

Sqoop:数据同步工具,是连接Hadoop与传统数据库之间的桥梁,支持多种数据库

MySQL、DB2等,本质上是一个MR程序

Flume:同Sqoop功能相似

Oozie:作业流调度系统,各种计算框架和作业调度种类很多(Streaming,HQL,Pig)

这些作业可能有依赖关系,或者是周期性作业、定时作业,Oozie可以作为调度

系统来管理

 

 

 

 

 

相关文章: