【发布时间】:2012-11-13 21:39:01
【问题描述】:
作为解决方法的一部分,我想使用两个 mapreduce 作业(而不是一个),它们应该按顺序运行以获得所需的效果。
每个作业中的 map 函数只是简单地发出每个键值对而不进行处理。每个作业中的 reduce 函数是不同的,因为它们执行不同类型的处理。
我偶然发现了 oozie,它似乎直接写入后续作业的输入流(或者不是吗?) - 这会很棒,因为中间数据很大(I/O 操作会成为瓶颈) .
如何使用 oozie(工作流程中的 2 个 mr 作业)实现此目的?
我确实浏览了以下资源,但它们只是将单个作业作为工作流运行: https://cwiki.apache.org/confluence/display/OOZIE/Map+Reduce+Cookbook
帮助表示赞赏。
干杯
【问题讨论】: