【发布时间】:2016-08-15 13:26:01
【问题描述】:
我有一个带有 4 个数据节点的 Hadoop 集群。我对这两个问题感到困惑:数据复制和数据分发。
假设我有一个 2 GB 的文件,我的复制因子是 2,块大小是 128 MB。当我将此文件放入 hdfs 时,我看到创建了每个 128 MB 块的 2 个副本,并将它们放置在 datanode3 和 datanode4 中。但是 datanode2 & datanode1 没有被使用。由于复制因素,数据被复制,但我希望在 datanode1 和 datanode2 中看到一些数据块。有什么问题吗?
假设我有 20 个 DataNode,复制因子为 2。如果我将一个文件 (2 GB) 放在 HDFS 上,我再次希望看到每个 128 MB 的两个副本,但也希望看到这些 128 MB 块分布20 个 DataNode 之间。
【问题讨论】:
标签: hdfs replication