【发布时间】:2013-10-01 11:06:33
【问题描述】:
我有一个 map-reduce 程序,其中映射器生成多个键。根据 map-reduce 框架,所有具有相同 key 的对都被传输到同一个 reducer。假设我有 10 个键(总共)和 3 个减速器。 reducer 最后输出的是 3 个输出文件。是否有任何技术可以为每个键生成单独的输出文件并在最后输出 10 个输出文件?可以有 10 个 reducer,但是当键的数量增加时,这种解决方案可能无法实现。
【问题讨论】:
我有一个 map-reduce 程序,其中映射器生成多个键。根据 map-reduce 框架,所有具有相同 key 的对都被传输到同一个 reducer。假设我有 10 个键(总共)和 3 个减速器。 reducer 最后输出的是 3 个输出文件。是否有任何技术可以为每个键生成单独的输出文件并在最后输出 10 个输出文件?可以有 10 个 reducer,但是当键的数量增加时,这种解决方案可能无法实现。
【问题讨论】:
这听起来不是一个好主意。一旦您开始将 Hadoop 用于真正的东西,您将面临严重的问题。
但是,如果您仍然需要它,为什么不跳过 Reduce 阶段。只需直接从 Mappers 发出输出,然后是 Combiner。
【讨论】: