【发布时间】:2013-10-01 10:34:40
【问题描述】:
我有一种情况,文件的整个块位于一台机器上,默认复制因子为 1。
在这种情况下,如果我在集群上启动 hadoop,我觉得我的所有映射任务将只在一台机器上运行,因为块只存在于那台机器上。这样对吗?本地映射器任务执行是一个约束还是一个优先级?
如果是,是否可以通过将块复制到本地磁盘来配置映射器任务也在其他机器上运行。?
第二个问题是,即使mapper任务只在一台机器上运行,通过复制mapper的中间数据在所有其他机器上启动reducer是否正确?
【问题讨论】:
-
假设我们有足够的map和reduce槽
标签: java hadoop mapreduce mapper reducers