【发布时间】:2014-09-20 05:03:00
【问题描述】:
可以配置一个mapreduce程序,使得只执行reducer而不执行mapper[即使程序中定义了一个map函数]。这可以通过更改作业配置来实现吗?
我想在 mapreduce 中实现增量计算(输入作为仅附加文件)。例如
对于字数,
如果已对文件执行 wordcount,则在输入文件中追加一些数据。
如果在更新的输入文件上再次执行 wordcount,我想只对新数据执行 wordcount 并将旧结果与此结合。 对于这种输出组合,我想单独执行 reducer。
【问题讨论】:
-
这完全取决于你在做什么:你是加入数据还是要减少已经排序的数据?
-
我已经更新了关于我想要实现什么的问题。
标签: hadoop mapreduce configure reduce