序言

Hadoop——生态体系

Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案。

Hadoop的两个核心解决了数据存储问题(HDFS分布式文件系统)和分布式计算问题(MapRe-duce)。

举例1:用户想要获取某个路径的数据,数据存放在很多的机器上,作为用户不用考虑在哪台机器上,HD-FS自动搞定。

举例2:如果一个100p的文件,希望过滤出含有Hadoop字符串的行。这种场景下,HDFS分布式存储,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,同时MapReduce分布式计算可以将大数据量的作业先分片计算,最后汇总输出。

Hadoop——生态体系

核心组件

HDFS:分布式文件系统(Hadoop Distributed File System)。

MapReduce:分布式计算。

YARN:为 Hadoop 数据处理提供了通用的资源管理器和调度器。

Apache Hive:提供 HDFS 上数据的结构化定义,及数据的类 SQL 查询功能。

Apache HBase:它是一个分布式 NoSQL 数据存储,提供 HDFS 上超大规模数据集的随机访问。

Apache Flume:一个常用的数据采集工具,将基于事件的数据(如日志)转存至 Hadoop

Apache Sqoop:用来在外部数据存储(如关系型数据库)与 Hadoop 之间进行数据移动。

Apache ZooKeeper:来保障 Hadoop 生态圈中各个项目间的协同工作。

主要学习方向

HDFS概念

MapReduce

MapReduce 案例

Hive架构

Hive DDL

Hive DML

Hive查询访问

Hive安全管理与压缩

Hbase 架构与操作

Hbase 压缩与存储

Flume

Sqoop

zookeeper

ElasticSearch

Cloudera Manager

Hue

impala

oozie

资料

https://www.cnblogs.com/edisonchou/category/542546.html

相关文章:

  • 2021-12-04
  • 2021-10-26
猜你喜欢
  • 2021-07-18
  • 2021-05-01
  • 2021-07-28
  • 2021-08-02
  • 2022-01-09
  • 2021-08-24
相关资源
相似解决方案