HDFS是什么??
HDFS(Hadoop Distributed File System ),即hadoop的分布式文件系统
File System 文件系统:操作系统中负责管理和存储文件信息的软件
分布式文件系统 : 当数据集大小超出一台计算机的存储能力时,就有必要将它拆分成若干部分,然后分散到不同的计算机中存储 ; 管理网络中跨多台计算机存储的文件系统称之为分布式文件系统
HDFS的优点:
- 适合存储大文件,能用来存储管理PB级的数据(1PB=1024TB) ; 不适合存储小文件
- 处理非结构化数据
- 流式的访问数据,一次写入、多次读写
- 运行于廉价的商用机器集群上,成本低
- 高容错:故障时能继续运行且不让用户察觉到明显的中断
- 可扩展
HDFS的局域性:
- 不适合处理低延迟数据访问 DFS是为了处理大型数据集分析任务的,主要是为达到高的数据吞吐量而设计的; 对于低延时的访问需求,Hbase是更好的选择
- 无法高效存储大量的小文件 小文件会给Hadoop的扩展性和性能带来严重问题 利用SequenceFile、MapFile等方式归档小文件
- 不支持多用户写入及任意修改文件 文件有一个写入者,只能执行追加操作 不支持多个用户对同一文件的写操作,以及在文件任意位置进行修改