【发布时间】:2016-05-05 20:31:47
【问题描述】:
如何根据集群中磁盘的总大小计算 HDFS 集群的可用大小?
例如如果我的集群是 10 台机器,每台都有 1TB 的存储空间,hadoop fs -df 会报告什么?
更具体地说,我需要在 HDFS 集群中存储 5 TB 的数据。我的集群需要多少总磁盘空间?
【问题讨论】:
标签: hadoop apache-spark hdfs bigdata
如何根据集群中磁盘的总大小计算 HDFS 集群的可用大小?
例如如果我的集群是 10 台机器,每台都有 1TB 的存储空间,hadoop fs -df 会报告什么?
更具体地说,我需要在 HDFS 集群中存储 5 TB 的数据。我的集群需要多少总磁盘空间?
【问题讨论】:
标签: hadoop apache-spark hdfs bigdata
这一切都取决于您如何设置 HDFS 复制因子。 默认(和推荐)是 3。
您还可以设置 hdfs 以保留一些非 dfs 空间,因此,如果需要,将其减去。
粗略计算几乎总是file size * 3 = total storage needed。
【讨论】: