【发布时间】:2013-11-09 19:11:49
【问题描述】:
我是 MapReduce-hadoop 世界的新手。在配置和文档中,他们指定了映射器和缩减器的数量。这实际上是什么意思?我的疑问是:
- 它是否指定了将进行映射/减少的级别数。即,如果reducer 的编号=2。那么reduce 方法将被调用2 次。是吗?
- 是否指定了并行工作的映射器/归约器线程数,但每个线程只执行一次映射/归约。
哪一个是正确的?或者它意味着别的东西。我很困惑..请回答我
【问题讨论】:
我是 MapReduce-hadoop 世界的新手。在配置和文档中,他们指定了映射器和缩减器的数量。这实际上是什么意思?我的疑问是:
哪一个是正确的?或者它意味着别的东西。我很困惑..请回答我
【问题讨论】:
由于您是 Map-Reduce 的新手,我坚信您需要阅读这篇论文:http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/mapreduce-osdi04.pdf
一旦范式被清楚地理解,你们中的大多数疑问都会被清除。这是一个完美的起点。
【讨论】:
不,你完全错了。
mapred.tasktracker.map|reduce.tasks.maximum 配置的。请注意,reducer(在插槽中)将执行任务。所以相应地配置reduce slot的数量和reduce任务的数量是很重要的。如果您总共有 10 个 reduce 插槽,您还需要至少 10 个 reduce 任务,否则一些插槽将处于空闲状态。【讨论】: