【发布时间】:2013-12-02 20:01:05
【问题描述】:
我有两个数据集
Master.txt
ID,StartTime
1,2013-04-01 00:01:37
2,2013-04-01 00:01:37
Transaction.txt
ID,SurveyDate,Attr1
1,2013-04-01 00:03:40,Success
2,2013-05-01 00:01:30,Success
我想用 ID 和 (SurveyDate-StartTime Attr1 添加到 Master。
我使用 Load in pig 加载了 Master 和 Transaction,我可以加入 ID,但我无法找到 Master.StartTime 24 小时内的 Transactions。
Master.txt 有大量记录,其中交易很少。
这里是代码
master=load 'hdfs://localhost:9000/user/xyz/contact/master' using PigStorage(',') as (ID,StartTime)
transaction=load 'hdfs://localhost:9000/user/xyz/contact/transaction' using PigStorage(',') as
(ID,SurveyDate,Attr1)
combine=join master by ID left outer, transaction ID
这是迄今为止我所拥有的,据我所知,在加入数据集时不允许使用文档条件。所以不知道如何添加 Master.StartTime-Transaction.SurveyDate
【问题讨论】:
-
请在代码中展示您当前的努力。
-
编辑您的帖子而不是在 cmets 中发帖
-
我已按要求编辑帖子
标签: hadoop apache-pig