HDFS实现将文件分布式存储在很多服务器上。

  • HDFS是一个分布式文件系统
  • 功能是帮助用户管理文件。文件一定有个路径顶层目录是一个根目录。跟目录下有多个子文件夹。
  • HDFS 最终个管理在LINUX的服务器。
  • 假如根目录下的data目录下有个文件512M,牧人每块有128M,共4快。在服务器的内存上会有统一的命名。HDFS整体工作机制。
    有多个服务器每一个服务器上都有一个data node(HDFS的软件)

HDFS整体工作机制。

  • 整个系统是一个分布式系统,HDFS必须要装name node 软件,只要装一台就可以了。
  • name node 会记录用户存放文件路径大小,文件会切成几块,并记录每块的主机名和编码。(元数据)
    name node 会记录存放用户数据地址信息,data node 则存储block块。
  • 文件会切成块放在linux服务器上。放服务器切成块放在固定的目录下。
    -用户的文件切块后存在 多台data node 服务器上,并且每个文件快都会在整个集群中存放多个副本,副本的数量可以由用户指定。
    HDFS:对用户提供一个统一的目录树。
    存储用户文件时:会切成若干小份分布式的存放在多台data 弄得服务器中,data node 软件存储用户文件块是,是存放在DATA NODE 软件所运行的服务器的本地磁盘目录中。
    用户的文件块可以存储多个副本,增强数据的安全性。
    用户文件块存储位置信息,记录在name node 快中。并定期序列化到磁盘中。

相关文章: