Hadoop——生态体系

Hadoop——生态体系

Hadoop是一个开源的大数据框架，是一个分布式计算的解决方案。

Hadoop的两个核心解决了数据存储问题（HDFS分布式文件系统）和分布式计算问题（MapRe-duce）。

举例1：用户想要获取某个路径的数据，数据存放在很多的机器上，作为用户不用考虑在哪台机器上，HD-FS自动搞定。

举例2：如果一个100p的文件，希望过滤出含有Hadoop字符串的行。这种场景下，HDFS分布式存储，突破了服务器硬盘大小的限制，解决了单台机器无法存储大文件的问题，同时MapReduce分布式计算可以将大数据量的作业先分片计算，最后汇总输出。

Hadoop——生态体系

HDFS：分布式文件系统（Hadoop Distributed File System）。

MapReduce：分布式计算。

YARN：为 Hadoop 数据处理提供了通用的资源管理器和调度器。

Apache Hive：提供 HDFS 上数据的结构化定义，及数据的类 SQL 查询功能。

Apache HBase：它是一个分布式 NoSQL 数据存储，提供 HDFS 上超大规模数据集的随机访问。

Apache Flume：一个常用的数据采集工具，将基于事件的数据（如日志）转存至 Hadoop。

Apache Sqoop：用来在外部数据存储（如关系型数据库）与 Hadoop 之间进行数据移动。

Apache ZooKeeper：来保障 Hadoop 生态圈中各个项目间的协同工作。

HDFS概念

MapReduce

MapReduce 案例

Hive架构

Hive DDL

Hive DML

Hive查询访问

Hive安全管理与压缩

Hbase 架构与操作

Hbase 压缩与存储

Flume

Sqoop

zookeeper

ElasticSearch

Cloudera Manager

Hue

impala

oozie