HDFS是什么??

HDFS(Hadoop Distributed File System ),即hadoop的分布式文件系统  

File System 文件系统:操作系统中负责管理和存储文件信息的软件

分布式文件系统 : 当数据集大小超出一台计算机的存储能力时,就有必要将它拆分成若干部分,然后分散到不同的计算机中存储 ; 管理网络中跨多台计算机存储的文件系统称之为分布式文件系统

HDFS的优点:

  • 适合存储大文件,能用来存储管理PB级的数据(1PB=1024TB) ; 不适合存储小文件 
  • 处理非结构化数据
  • 流式的访问数据,一次写入、多次读写
  • 运行于廉价的商用机器集群上,成本低
  • 高容错:故障时能继续运行且不让用户察觉到明显的中断
  • 可扩展

Hadoop --- HDFS介绍

HDFS的局域性:

  • 不适合处理低延迟数据访问                                                                                                                                         DFS是为了处理大型数据集分析任务的,主要是为达到高的数据吞吐量而设计的;                                                       对于低延时的访问需求,Hbase是更好的选择
  • 无法高效存储大量的小文件                                                                                                                                               小文件会给Hadoop的扩展性和性能带来严重问题                                                                                                           利用SequenceFile、MapFile等方式归档小文件
  • 不支持多用户写入及任意修改文件                                                                                                                                     文件有一个写入者,只能执行追加操作                                                                                                                             不支持多个用户对同一文件的写操作,以及在文件任意位置进行修改

 

相关文章: