【发布时间】:2014-05-15 10:48:35
【问题描述】:
我想将数据从 HDFS 加载到 HBSE 表 sing PIG 脚本。
我的hadfs文件夹结构如下:
-rw-r--r-- 1 user supergroup 63 2014-05-15 20:28 dataparse/good/goodrec_051520142028
-rw-r--r-- 1 user supergroup 72 2014-05-15 20:30 dataparse/good/goodrec_051520142030
-rw-r--r-- 1 user supergroup 110 2014-05-15 20:32 dataparse/good/goodrec_051520142032
以上所有文件名都附有时间戳。
下面是我从 HDFS 加载到 HBASE 的 PIG 脚本:
G = LOAD '/user/user/dataparse/good/' USING PigStorage(',') as (c1:chararray, c2:chararray,c3:chararray,c4:chararray,c5:chararray);
STORE G INTO 'hbase://test' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('t1:name t1:state t1:phone_no t1:gender');
脚本运行良好,所有 3 个文件的数据都写入 Hbase“test”表。
假设一段时间后,如果更多文件以相同的结构进入 HDFS,当我运行 pig 脚本时,它将加载“good”目录中的所有文件以及已读取的文件.那么我怎样才能只加载那些是新文件的文件。不应将已加载的文件再次加载到我的 HBASE 表中。
我该怎么做?
谢谢, 萨普塔什里
【问题讨论】:
-
以上帖子有更新吗?
标签: hadoop apache-pig