【发布时间】:2012-09-17 04:38:25
【问题描述】:
我是 hadoop 框架的新手。因此,如果有人可以指导我完成这件事,那将对我有所帮助。 我有两种类型的文件。 dirA/ --> file_a , file_b, file_c
dirB/ --> another_file_a, another_file_b...
目录 A 中的文件包含传输信息。
比如:
id, time_stamp
1 , some_time_stamp
2 , some_another_time_stamp
1 , another_time_stamp
因此,此类信息分散在 dirA 中的所有文件中。 现在要做的第一件事是:我给出一个时间范围(比如说上周),我想找到该时间范围之间存在的所有唯一 ID。
所以,保存一个文件。
现在,dirB 文件包含地址信息。 比如:
id, address, zip code
1, fooadd, 12345
and so on
所以第一个文件输出的所有唯一ID..我将它们作为输入,然后找到地址和邮政编码。
基本上最后的out就像sql合并。
找到一个时间范围内的所有唯一ID,然后合并地址信息。
我将非常感谢任何帮助。 谢谢
【问题讨论】:
标签: hadoop apache-pig hadoop-streaming