【发布时间】:2019-12-16 20:24:33
【问题描述】:
我发现了类似的问题 Hadoop HDFS is not distributing blocks of data evenly
但我的问题是当复制因子 = 1
我仍然想了解为什么 HDFS 没有在集群节点之间均匀分布文件块?当我在此类文件上加载/运行数据帧操作时,这将导致数据从一开始就倾斜。我错过了什么吗?
【问题讨论】:
标签: hadoop hdfs replication-factor
我发现了类似的问题 Hadoop HDFS is not distributing blocks of data evenly
但我的问题是当复制因子 = 1
我仍然想了解为什么 HDFS 没有在集群节点之间均匀分布文件块?当我在此类文件上加载/运行数据帧操作时,这将导致数据从一开始就倾斜。我错过了什么吗?
【问题讨论】:
标签: hadoop hdfs replication-factor
即使复制因子为 1,文件仍会被拆分并以 HDFS 块大小的倍数存储。块放置是尽最大努力,AFAIK,而不是纯粹的平衡; 3 的复制放置选择一个随机节点,然后是同一机架上的另一个节点,然后是另一个随机离开机架的节点
您需要明确文件的大小以及您要查看的数据是否正在拆分
注意:并非所有文件格式都可以拆分
【讨论】: