【发布时间】:2016-05-04 12:16:30
【问题描述】:
我正在尝试了解并行处理如何与 Hadoop 和 MapReduce 一起使用。
我了解 Map 可以如何并行运行,但我不了解 Reduce 可以如何。例如,如果我想找到以下列表的平均值:
COMPUTER | YEAR | RUNS
‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾
compA | 1989 | 20
compA | 1990 | 10
compB | 1991 | 300
其中compA & compB 是两个数据节点
如果 Reduce 中的平均函数在 compA 和 compB 上运行,然后将两个数据 noes 的结果平均,那将是错误的。
【问题讨论】:
标签: hadoop