【发布时间】:2013-11-14 19:20:24
【问题描述】:
有很多内容解释了数据局部性以及 MapReduce 和 HDFS 如何在多节点集群上工作。但我找不到关于单节点设置的太多信息。在过去的三个月里,我正在尝试Hadoop,我一直在阅读有关映射器和减速器数量的教程和线程,并编写自定义分区器来优化作业,但我一直在想,它是否适用于单节点集群?
与多节点集群相比,在单节点集群上运行MapReduce 作业有什么损失?
通过拆分输入数据提供的并行性在这种情况下是否仍然适用?
从单个节点HDFS读取输入和从本地文件系统读取有什么区别?
我认为由于我的经验不足,我无法清楚地回答这些问题,因此不胜感激!
提前致谢!
编辑:我了解 Hadoop 不适合单节点设置,因为 @TC1 列出了所有因素。那么,搭建一个伪分布式 Hadoop 环境有什么好处呢?
【问题讨论】: