【问题标题】:HDFS: Actual space of all disks on cluster vs usable HDFS sizeHDFS:集群上所有磁盘的实际空间与可用 HDFS 大小
【发布时间】:2016-05-05 20:31:47
【问题描述】:

如何根据集群中磁盘的总大小计算 HDFS 集群的可用大小?

例如如果我的集群是 10 台机器,每台都有 1TB 的存储空间,hadoop fs -df 会报告什么?

更具体地说,我需要在 HDFS 集群中存储 5 TB 的数据。我的集群需要多少总磁盘空间?

【问题讨论】:

    标签: hadoop apache-spark hdfs bigdata


    【解决方案1】:

    这一切都取决于您如何设置 HDFS 复制因子。 默认(和推荐)是 3。

    您还可以设置 hdfs 以保留一些非 dfs 空间,因此,如果需要,将其减去。

    粗略计算几乎总是file size * 3 = total storage needed

    【讨论】:

    • 好的,非常感谢。由于我使用的是临时集群,因此我将禁用复制。
    • 不建议这样做。如果节点死亡,您可能会丢失数据。此外,您一次只能在 1 个节点上拥有任何块的数据。因此,可能需要将更多数据从所有节点流式传输到运行作业的节点。
    • 数据局部性好点。我不担心丢失数据,因为无论如何这是一个副本。我将它增加到 2。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2015-10-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多