【问题标题】:How to set the number of NameNodes, DataNodes, Mappers and Reducers in Hadoop如何在 Hadoop 中设置 NameNodes、DataNodes、Mappers 和 Reducers 的数量
【发布时间】:2017-04-11 05:59:04
【问题描述】:

我想知道如何设置数量

名称节点

数据节点

映射器

减速器

Hadoop 的代码/配置中。

【问题讨论】:

    标签: hadoop mapreduce reducers namenode mappers


    【解决方案1】:

    Namenode 和 DataNode 数量由您的业务需求决定。你不是通过编程来设置它们的。

    如果您需要可扩展性,则必须研究 HDFS 联合的概念。

    请参阅此文档page,了解有关联合的更多详细信息。

    为了横向扩展名称服务,联邦使用多个独立的名称节点/名称空间。 Namenodes是联合的; Namenodes是独立的,不需要相互协调。 Datanodes被所有Namenodes用作块的公共存储。

    映射器的数量由输入拆分决定。

    您可以以编程方式设置 reducer 的数量,但框架没有义务遵守您的建议。

    所以最好让 Hadoop 来决定 Mappers 和 Reducer 的数量。

    看看这个相关的 SE 问题:

    How hadoop decides how many nodes will do map and reduce tasks

    编辑:

    Hadoop 集群大小: 1. 根据您的业务需求确定数据需求 2. 确定数据的复制因子 3. 计算未来几年的数据泄露率 4. 有了以上数据,就可以考虑Namenode和Datanode的理想集群规模和硬件要求了。

    有关更多详细信息,请参阅此 cloudera article

    地图的正确并行度似乎是每个节点大约 10-100 个地图”这里的节点是指 NameNode 还是 DataNode?​​p>

    它是数据节点。

    在谈论 Mappers 时,有人说与拆分相同的数量,有人说相同数量的块,而另一些人说它是由框架决定的

    它是由 hadoop 框架根据输入拆分的数量决定的。

    查看相关的 SE 问题:

    How does Hadoop perform input splits?

    【讨论】:

    • 感谢您的回答,我知道NameNodes可以通过配置来设置,mappers&reducers是由Hadoop框架决定的。现在 DataNodes 如何设置它们的数量呢?同样在您给我的第二个链接中提到:“地图的正确并行度似乎是每个节点大约 10-100 个地图”这里的节点是指 NameNode 还是 DataNode?在谈到 Mappers 时,有人说与拆分相同的数量,另一个说相同数量的块,而另一些人说它是由框架决定的,可能不会给出确切的拆分或块数,那么从上面哪个是正确的?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-05-23
    • 2014-05-26
    • 1970-01-01
    • 2014-11-23
    • 1970-01-01
    相关资源
    最近更新 更多