如何在 Hadoop 中设置 NameNodes、DataNodes、Mappers 和 Reducers 的数量答案

【问题标题】：How to set the number of NameNodes, DataNodes, Mappers and Reducers in Hadoop如何在 Hadoop 中设置 NameNodes、DataNodes、Mappers 和 Reducers 的数量
【发布时间】：2017-04-11 05:59:04
【问题描述】：

我想知道如何设置数量

名称节点

数据节点

映射器

减速器

在 Hadoop 的代码/配置中。

【问题讨论】：

标签： hadoop mapreduce reducers namenode mappers

【解决方案1】：

Namenode 和 DataNode 数量由您的业务需求决定。你不是通过编程来设置它们的。

如果您需要可扩展性，则必须研究 HDFS 联合的概念。

请参阅此文档page，了解有关联合的更多详细信息。

为了横向扩展名称服务，联邦使用多个独立的名称节点/名称空间。 Namenodes是联合的； Namenodes是独立的，不需要相互协调。 Datanodes被所有Namenodes用作块的公共存储。

映射器的数量由输入拆分决定。

您可以以编程方式设置 reducer 的数量，但框架没有义务遵守您的建议。

所以最好让 Hadoop 来决定 Mappers 和 Reducer 的数量。

编辑：

Hadoop 集群大小： 1. 根据您的业务需求确定数据需求 2. 确定数据的复制因子 3. 计算未来几年的数据泄露率 4. 有了以上数据，就可以考虑Namenode和Datanode的理想集群规模和硬件要求了。

有关更多详细信息，请参阅此 cloudera article。

地图的正确并行度似乎是每个节点大约 10-100 个地图”这里的节点是指 NameNode 还是 DataNode？p>

它是数据节点。

在谈论 Mappers 时，有人说与拆分相同的数量，有人说相同数量的块，而另一些人说它是由框架决定的

它是由 hadoop 框架根据输入拆分的数量决定的。

查看相关的 SE 问题：

How does Hadoop perform input splits?

【讨论】：

感谢您的回答，我知道NameNodes可以通过配置来设置，mappers&reducers是由Hadoop框架决定的。现在 DataNodes 如何设置它们的数量呢？同样在您给我的第二个链接中提到：“地图的正确并行度似乎是每个节点大约 10-100 个地图”这里的节点是指 NameNode 还是 DataNode？在谈到 Mappers 时，有人说与拆分相同的数量，另一个说相同数量的块，而另一些人说它是由框架决定的，可能不会给出确切的拆分或块数，那么从上面哪个是正确的？