【问题标题】:hadoop + how to rebalnce the hdfshadoop + 如何重新平衡hdfs
【发布时间】:2021-01-17 17:01:53
【问题描述】:

我们有HDP集群版本2.6.58数据节点,所有机器都安装在rhel 7.6版本上

HDP 集群基于 amabri 平台版本 - 2.6.1

每个数据节点(worker machine)包括两个磁盘,每个磁盘大小为1.8T

当我们访问数据节点机器时,我们可以看到磁盘大小之间的差异

例如,在第一个数据节点上,大小为:(df -h

/dev/sdb                  1.8T  839G  996G  46% /grid/sdc
/dev/sda                  1.8T 1014G  821G  56% /grid/sdb

在第二个数据节点上,大小为:

/dev/sdb                  1.8T  1.5T  390G  79% /grid/sdc
/dev/sda                  1.8T  1.5T  400G  79% /grid/sdb

在第三个数据节点的大小为:

/dev/sdb                  1.8T  1.7T  170G  91% /grid/sdc
/dev/sda                  1.8T  1.7T  169G  91% /grid/sdb

等等

最大的问题是为什么 HDFS 不对 HDFS 磁盘执行重新平衡?

例如,所有磁盘上的预期结果在所有 datanodes 机器上应该具有相同的大小

为什么datanode1datanode2datanode3 等之间的使用大小不同?

关于 HDFS 中调整参数的任何建议可以帮助我们吗?

因为当一个磁盘达到100% 大小而另一个磁盘比50% 更小时,它非常关键

【问题讨论】:

    标签: hadoop hdfs hdp


    【解决方案1】:

    这是 HDP 2.6 中 hdfs 重新平衡器的已知行为,块分布不平衡的原因有很多。 Click检查所有可能的原因。

    HDFS-1312 引入了磁盘平衡选项来解决此问题。

    以下文章将帮助您更有效地调整它:-

    1. HDFS Balancer (1): 100x Performance Improvement
    2. HDFS Balancer (2): Configurations & CLI Options
    3. HDFS Balancer (3): Cluster Balancing Algorithm

    我建议升级到 HDP3.X,因为 HDP 2.x 不再是 Cloudera Support 的not supported

    【讨论】:

    • 我看到 issues.apache.org/jira/browse/HDFS-1312 只适用于 HDP 3.X ,那我们该如何使用呢?
    • 关于issues.apache.org/jira/browse/HDFS-1312,不清楚需要在ambari的HDFS配置中安装哪些包或需要配置哪些调整设置
    • 如果它不存在,我不建议使用它,它是 hdfs 的重大升级,我们很可能会破坏某些东西。
    • 您可以尝试将 dfs.datanode.du.reserved 设置为 10GB,它将适用于 hdfs 使用的数据节点上的每个卷,并且不会将 10GB 用于非 hdfs 使用。对于 hdp 2.6,这是目前最好的方法。
    • 如您所见,每个磁盘都是 1.8T ,所以如果我为 dfs.datanode.du.reserved 设置 10G ,那么如何帮助重新平衡磁盘以使其使用相同的大小?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-11-15
    • 2014-07-04
    • 1970-01-01
    • 1970-01-01
    • 2014-10-13
    相关资源
    最近更新 更多