在关系型数据库中,要实现join操作是非常方便的,通过sql定义的join原语就可以实现。在hdfs存储的海量数据中,要实现join操作,可以通过HiveQL很方便地实现。不过HiveQL也是转化成MapReduce来完成操作,本文首先研究如何通过编写MapReduce程序来完成join操作。

一、Map-Join:在Reduce端完成的join操作

   假设存在用户数据文件users.txt和用户登录日志数据文件login_logs.txt,数据内容分别如下所示:

   用户数据文件user.txt,列:userid、name:

1    LiXiaolong
2    JetLi
3    Zhangsan
4    Lisi
5    Wangwu
View Code

相关文章: