【发布时间】:2014-08-11 17:47:27
【问题描述】:
我正在尝试读取猪作业中的 txt 文件,并将其与位于我们 hdfs 上的数据连接起来。
所以基本上我想做的是:
current_ids = LOAD 'http://host/dir/file.txt' USING PigStorage(',') AS (id:int);
bindings = LOAD '$hdfs_path' USING AvroStorage();
joined_ids = JOIN current_ids BY id, bindings by user_id;
第一:这可能吗?我想是的。
第二:我该怎么做,或者我可以从哪里获得更多答案。我出人意料地被困在这个问题上:)。
如果可能的话,我们宁愿不必将 txt 文件上传到我们的 hdfs。
谢谢!
【问题讨论】:
标签: hadoop apache-pig