但大数据的价值在各个领域展现之后,时代的聚光灯就不曾在大数据身上挪移,而且,伴随着大数据影响力的逐渐增强,越来越多的人开始涌入到这个领域,当然,越来越多的人也开始逐渐的认识到HDFS在大数据中扮演的角色,而这也就引发了一个老生常谈的话题,HDFS的究竟是什么?为什么受到众人的追捧?
首先,我们还是先来了解一下究竟什么是HDFS
HDFS是单词的缩写,将其还原的话就是Hadoop Distributed File System,它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。
其次,HDFS的特点和优势
HDFS的共有四个较为显著的特点,分别是1、高容错性;2、高吞吐量:为大量数据访问应用提供高可吞吐量支持;3、大文件存储:支持TB-PB级别的数据存储;4、保存多个副本,且提供容量增长机制,副本丢失或者宕机自动修复。这四大特性和优势让其处理数据时具备了更多的可操作性,让从业者能够方便的进行数据的处理,从而节省时间,提高效率。
最后,HDFS的应用场景
关于HDFS的应用场景我们可以从两个方面来详细的了解,一方面为不适合做什么,另一方面为适合做什么。
其一:HDFS不适合应用的场景。
A、低时间延迟数据访问的应用,如毫秒级别范围的:因为HDFS是为高数据吞吐量应用优化的,这样就会造成以高延迟为代价。
B、大量小文件:因为nameNode将文件系统的元数据存储在内存中,因此文件系统所能存储的文件总数受限于namenode内存容量。每个文件,目录和数据块的存储信息大约占150字节,如果是上十亿个文件,那么需要的内存将是非常大的。
C、多用户写入,任意修改文件:因为HDFS文件只有一个writer,而且写操作总是写在文件的末尾。
其二:HDFS适合的应用场景
A、专为存储超大文件而设计:hdfs应该能够支持GB级别大小的文件;它应该能够提供很大的数据带宽并且能够在集群中拓展到成百上千个节点;它的一个实例应该能够支持千万数量级别的文件。
B、适用于流式的数据访问:hdfs适用于批处理的情况而不是交互式处理;它的重点是保证高吞吐量而不是低延迟的用户响应。
C、支持简单的一致性模型:HDFS需要支持一次写入多次读取的模型,而且写入过程文件不会经常变化。
D、移动计算优于移动数据:HDFS提供了使应用计算移动到离它最近数据位置的接口。
数据驱动一切的年代,各个领域对于数据的关注度愈加的强烈,现在,基本没有哪个行业会忽视数据带来的影响力,而且,各个行业还会不断的加强大数据方面的研究。对于数据的处理越精细,所带来的影响就越深刻,所以,像大数据中的重点HDFS就自然成为各个行业重点研究的一个特点,而关于HDFS的讨论,自然也就成为了一个老生常谈的话题。