使用MapReduce实现join操作

　在关系型数据库中，要实现join操作是非常方便的，通过sql定义的join原语就可以实现。在hdfs存储的海量数据中，要实现join操作，可以通过HiveQL很方便地实现。不过HiveQL也是转化成MapReduce来完成操作，本文首先研究如何通过编写MapReduce程序来完成join操作。

一、Map-Join：在Reduce端完成的join操作

　假设存在用户数据文件users.txt和用户登录日志数据文件login_logs.txt，数据内容分别如下所示：

　用户数据文件user.txt，列：userid、name：

1    LiXiaolong
2    JetLi
3    Zhangsan
4    Lisi
5    Wangwu

View Code