首先从数据采集处>存到HDFS上,

解决数据存不下问题>>>分布式存储,横向发展增加存储服务器个数

解决数据查询不方便>>>NN的元数据存储

解决数据的故障丢失问题>>>副本机制

解决上传下载效率低下问题>>>文件切块

HDFS对数据文件进行split,切成的block大小hadoop1.X 默认64M,2.X默认128M(可设置,最小最大).可以增加线程并行度提高数据写入速度

设置副本个数,

读写原理图:

写:

HDFS 存储机制

读:

HDFS 存储机制

相关文章: