首先从数据采集处>存到HDFS上,
解决数据存不下问题>>>分布式存储,横向发展增加存储服务器个数
解决数据查询不方便>>>NN的元数据存储
解决数据的故障丢失问题>>>副本机制
解决上传下载效率低下问题>>>文件切块
HDFS对数据文件进行split,切成的block大小hadoop1.X 默认64M,2.X默认128M(可设置,最小最大).可以增加线程并行度提高数据写入速度
设置副本个数,
读写原理图:
写:
读:
首先从数据采集处>存到HDFS上,
解决数据存不下问题>>>分布式存储,横向发展增加存储服务器个数
解决数据查询不方便>>>NN的元数据存储
解决数据的故障丢失问题>>>副本机制
解决上传下载效率低下问题>>>文件切块
HDFS对数据文件进行split,切成的block大小hadoop1.X 默认64M,2.X默认128M(可设置,最小最大).可以增加线程并行度提高数据写入速度
设置副本个数,
读写原理图:
写:
读:
相关文章: