• 为什么要出现HDFS?
    • 首先要说起hdfs的由来,hdfs由谷歌最先研发,其需求是单独一台计算机所能存储的空间是有限的,而随着计算机存储空间的加大,其价格是呈几何倍的增长,所以就有了hdfs的产生,hdfs架构在相对廉价的计算机上,以分布式的方式,这样想要扩大空间只要增加集群的数量就可以
  • 为什么hdfs需要副本机制?

    • 在上个问题的时候,我说过我们需要的是大量相对廉价的计算机,那么宕机就是一种必然事件,我们需要让数据避免丢失,就只有采取冗余数据存储,而具体的实现就是副本机制
  • 这是副本机制的官网图解

HDFS副本机制
地址:http://hadoop.apache.org/docs/r2.8.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

  • 三副本机制详解(三个以上的随机存储)
    第一副本:如果上传节点是DN,则上传该节点;如果上传节点是NN,则随机选择DN
    第二副本:放置在不同机架的DN上
    第三副本:放置在与第二副本相同机架的不同DN上
  • 副本机制的作用
    • 极大程度上避免了宕机所造成的数据丢失(除非命不好)
    • 可以在数据读取时进行数据校验

相关文章: