HDFS：集群上所有磁盘的实际空间与可用 HDFS 大小

【问题标题】：HDFS: Actual space of all disks on cluster vs usable HDFS sizeHDFS：集群上所有磁盘的实际空间与可用 HDFS 大小
【发布时间】：2016-05-05 20:31:47
【问题描述】：

如何根据集群中磁盘的总大小计算 HDFS 集群的可用大小？

例如如果我的集群是 10 台机器，每台都有 1TB 的存储空间，hadoop fs -df 会报告什么？

更具体地说，我需要在 HDFS 集群中存储 5 TB 的数据。我的集群需要多少总磁盘空间？

【问题讨论】：

【解决方案1】：

这一切都取决于您如何设置 HDFS 复制因子。默认（和推荐）是 3。

您还可以设置 hdfs 以保留一些非 dfs 空间，因此，如果需要，将其减去。

粗略计算几乎总是file size * 3 = total storage needed。

【讨论】：