今天被别人问道,我奔溃了,卧槽! 没仔细研究过这个

006.hive的join操作

HQL代码:
  

SELECT a.val, b.val, c.val
FROM a
JOIN b ON (a.key = b.key1)
JOIN c ON (c.key = b.key2)  

这里有两个map/reduce任务在join计算被调用。
第一个是a和b做join,然后reducers缓存a的值,另一边,从流接收b的值。
第二个阶段,reducers缓存第一个join的结果,另一边从流接收c的值。

在join的每个map/reduce阶段,通过关键字,可以指定哪个表从流接收。

转载于:https://my.oschina.net/repine/blog/671904

相关文章: