【发布时间】:2017-04-11 05:59:04
【问题描述】:
我想知道如何设置数量
名称节点
数据节点
映射器
减速器
在 Hadoop 的代码/配置中。
【问题讨论】:
标签: hadoop mapreduce reducers namenode mappers
我想知道如何设置数量
名称节点
数据节点
映射器
减速器
在 Hadoop 的代码/配置中。
【问题讨论】:
标签: hadoop mapreduce reducers namenode mappers
Namenode 和 DataNode 数量由您的业务需求决定。你不是通过编程来设置它们的。
如果您需要可扩展性,则必须研究 HDFS 联合的概念。
请参阅此文档page,了解有关联合的更多详细信息。
为了横向扩展名称服务,联邦使用多个独立的名称节点/名称空间。 Namenodes是联合的; Namenodes是独立的,不需要相互协调。 Datanodes被所有Namenodes用作块的公共存储。
映射器的数量由输入拆分决定。
您可以以编程方式设置 reducer 的数量,但框架没有义务遵守您的建议。
所以最好让 Hadoop 来决定 Mappers 和 Reducer 的数量。
看看这个相关的 SE 问题:
How hadoop decides how many nodes will do map and reduce tasks
编辑:
Hadoop 集群大小: 1. 根据您的业务需求确定数据需求 2. 确定数据的复制因子 3. 计算未来几年的数据泄露率 4. 有了以上数据,就可以考虑Namenode和Datanode的理想集群规模和硬件要求了。
有关更多详细信息,请参阅此 cloudera article。
地图的正确并行度似乎是每个节点大约 10-100 个地图”这里的节点是指 NameNode 还是 DataNode?p>
它是数据节点。
在谈论 Mappers 时,有人说与拆分相同的数量,有人说相同数量的块,而另一些人说它是由框架决定的
它是由 hadoop 框架根据输入拆分的数量决定的。
查看相关的 SE 问题:
【讨论】: