【发布时间】:2015-02-18 17:37:18
【问题描述】:
我有一个没有 ID 号(索引)的数据文件。可以使用 UDF 或 pig 中的任何内置函数创建每个条目的索引吗?例如:
data = load 'myfile.txt' using PigStorge(',') AS ( speed:float, location:charrarray);
A = foreach data generate index as (Id:int), speed, location;
我在将数据从 pig 加载到 Hbase 时遇到问题,因为 hbase 将速度读取为行键值,并且我的文件中有许多重复数据(速度)。我想将索引设置为行键值并存储在 Hbase 表中。您对此有什么建议吗?谢谢你。
【问题讨论】:
标签: hadoop indexing hbase apache-pig