【问题标题】:hdfs put/moveFromLocal not distributing data across data nodes?hdfs put/moveFromLocal 不在数据节点之间分配数据?
【发布时间】:2019-12-16 20:24:33
【问题描述】:

我发现了类似的问题 Hadoop HDFS is not distributing blocks of data evenly

但我的问题是当复制因子 = 1

我仍然想了解为什么 HDFS 没有在集群节点之间均匀分布文件块?当我在此类文件上加载/运行数据帧操作时,这将导致数据从一开始就倾斜。我错过了什么吗?

【问题讨论】:

    标签: hadoop hdfs replication-factor


    【解决方案1】:

    即使复制因子为 1,文件仍会被拆分并以 HDFS 块大小的倍数存储。块放置是尽最大努力,AFAIK,而不是纯粹的平衡; 3 的复制放置选择一个随机节点,然后是同一机架上的另一个节点,然后是另一个随机离开机架的节点

    您需要明确文件的大小以及您要查看的数据是否正在拆分

    注意:并非所有文件格式都可以拆分

    【讨论】:

    • 这大约是 980G。如我所见,3 节点集群仅使用一个节点来完全存储文件
    • 它是什么类型的文件?例如,ZIP 文件不可拆分
    • 这是一个文本文件。
    猜你喜欢
    • 2020-04-24
    • 1970-01-01
    • 2020-01-31
    • 2019-05-29
    • 1970-01-01
    • 2020-10-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多