目录
HDFS简介
前言:
设计思想 》 分为治之 》 将大文件,大批量文件,分布式的存放在大量服务器上。 》 对海量数据运算分析。
在大数据系统架构中的应用 :为各类分布式运算框架提供数据存储服务。
优缺点:
HDFS优点:
高容错性 : 1数据自动保存多个副本.2副本丢失后,自动回复。
适合处理超大文件 :GB、TB、甚至 PB级数据百万规模以上的文件数量
流式文件访问 : 一次性写入,多次读取,保证数据一致性
可构建在廉价服务器上 :1 通过多副本提高可靠性 。2 提供了容错和恢复机制
HDFS缺点:
低延迟数据访问 : 比如毫秒级 低延迟与高吞吐率
小文件存取 : 占用NameNode大量内存
并发写入、文件随机修改 : 1仅支持追加.2一个文件只能有一个写者
相关特性和设计目标
相关特性
高容错、可扩展性及可配置性强
跨平台
shell命令接口
机架感知功能 : 机房黑色柜子,服务器在上面
负载均衡
Web界面 : 18088、50070,只能监控,不可以操作
设计目标
检测和快速恢复硬件故障: 故障的检测和快速自动恢复是HDFS的一个核心目标。
流式数据访问 : 1 设计成适合进行批量处理 。2 重视数据吞吐量,而不是数据访问的反应速度 。备注:流式:不间断的意思。
大规模数据集 : 支持大文件存储
移动计算代价比移动数据代价低:一个应用请求的计算,离它操作的数据越近就越高效,这在数据达到海量级别的时候更是如此 。
可移植性 : HDFS在设计时就考虑到平台的可移植性,这种特性方便了HDFS作为大规模数据应用平台的推广 。
HDFS架构 主/从
2 HDFS的Shell操作
HDFS文件系统操作
hadoop fs -ls /
HDFS命令行参数:
常见举例
查看:
hadoop fs -ls /
hadoop fs -lsr /tmp
创建目录
hadoop fs -mkdir /test
上传文件
hadoop fs -put/hadoop fs -copyFromLocal
下载文件
hadoop fs -get/ hadoop fs -copyToLocal
查看文件
hadoop fs -cat
删除文件
hadoop fs -rm(r)