【发布时间】:2016-11-29 14:27:36
【问题描述】:
继续提问:data block size in HDFS, why 64MB?
我知道 HDFS 中的块大小在分发中的所有数据节点(大小取决于配置)中一致/相同。
我的问题是: 为什么这个blocksize在所有NameNode中保持一致?
我问这个问题是因为,假设我有 10 个高端处理机器作为 DataNode 和另外 20 个低端硬件。如果我们在这 10 台机器的 HDFS 中保留更多块,它的处理速度会更快吗? NameNode 也有元数据来识别 DataNode 中的块,那么机器之间块大小不一致的问题是什么?
【问题讨论】:
-
您的最后一句话是真实的陈述,您是否打算将其作为一个问题?
-
是的,这仅与我的问题有关。您能否详细说明为什么决定在所有数据节点中使用一致的块大小?
-
据我所知,
dfs.blocksize值是来自hdfs-site的集群范围设置。虽然您可以放置具有自定义块大小的单个文件,但我不知道有任何机制可以在高端机器之间“平衡”块 -
这似乎也得到了回答。 stackoverflow.com/questions/29604823/…
-
因为它是集群范围的设置,并且不存在管理单个数据节点/名称节点的机制或配置?我以为我们已经解决了