大数据概况及Hadoop生态系统

什么是大数据？
- 大数据特征
分布式计算
Hadoop是什么?
为什么使用Hadoop?
Hadoop vs. RDBMS
Hadoop生态圈
Zookeeper
Hadoop架构
HDFS特点
HDFS CLI (命令行)
hdfs dfsadmin
HDFS角色
HDFS副本机制
HDFS读文件
HDFS写文件

什么是大数据？

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据特征

4V特征
Volume(大数据量)：90% 的数据是过去两年产生
Velocity(速度快)：数据增长速度快，时效性高
Variety(多样化)：数据种类和来源多样化
结构化数据、半结构化数据、非结构化数据
Value(价值密度低)：需挖掘获取数据价值
固有特征
时效性
不可变性

分布式计算

分布式计算将较大的数据分成小的部分进行处理。
大数据概况及Hadoop生态系统

Hadoop是什么?

Hadoop是一个开源分布式系统架构
分布式文件系统HDFS——解决大数据存储
分布式计算框架MapReduce——解决大数据计算
分布式资源管理系统YARN
处理海量数据的架构首选
非常快得完成大数据计算任务
已发展成为一个Hadoop生态圈

为什么使用Hadoop?

高扩展性，可伸缩
高可靠性
多副本机制，容错高
低成本
无共享架构
灵活，可存储任意类型数据
开源，社区活跃

Hadoop vs. RDBMS

大数据概况及Hadoop生态系统

Hadoop生态圈

大数据概况及Hadoop生态系统

Zookeeper

是一个分布式应用程序协调服务
解决分布式集群中应用系统的一致性问题
提供的功能
配置管理、命名服务、分布式同步、队列管理、集群管理等
特性
全局数据一致
可靠性、顺序性、实时性
数据更新原子性
Zookeeper集群
角色：Leader、Follower、Observer

Hadoop架构

HDFS(Hadoop Distributed File System)
分布式文件系统，解决分布式存储
MapReduce
分布式计算框架
YARN
分布式资源管理系统
在Hadoop 2.x中引入
Common
支持所有其他模块的公共工具程序

HDFS特点

HDFS优点
支持处理超大文件
可运行在廉价机器上
高容错性
流式文件写入
HDFS缺点
不适合低延时数据访问场景
不适合小文件存取场景
不适合并发写入，文件随机修改场景

HDFS CLI (命令行)

基本格式
hdfs dfs -cmd（已过时）
hadoop fs -cmd
命令和Linux相似
-ls
-mkdir
-put
-rm
-help

hdfs dfsadmin

dfsadmin命令用于管理HDFS集群
大数据概况及Hadoop生态系统

HDFS角色

Client：客户端
NameNode (NN)：元数据节点
管理文件系统的Namespace/元数据
一个HDFS集群只有一个Active的NN
DataNode (DN)：数据节点
数据存储节点，保存和检索Block
一个集群可以有多个数据节点
Secondary NameNode (SNN)：从元数据节点
合并NameNode的edit logs到fsimage文件中
辅助NN将内存中元数据信息持久化

HDFS副本机制

Block：数据块
HDFS最基本的存储单元
默认块大小：128M（2.x）
副本机制
作用：避免数据丢失
副本数默认为3
存放机制：
一个在本地机架节点
一个在同一个机架不同节点
一个在不同机架的节点

HDFS读文件

大数据概况及Hadoop生态系统

HDFS写文件

大数据概况及Hadoop生态系统