【发布时间】:2014-06-21 00:13:03
【问题描述】:
我有这样的a custom Pig loader:
A = LOAD 'myfile' USING myudf_loader()
A 包含:
((key1, val1), (key2, val2), (key3, val3), ...)
即A 有一个外部元组,其中包含存储在内部元组中的键值对。
我没有使用地图,因为地图需要 key values within a relation must be unique。我拥有的键不一定是唯一的。
键是chararrays,值可以是chararrays、ints和floats。
我想访问A 的内部元组,以及这些元组中的(键、值)对。
例如,我想FILTERA 的键,这样剩下的字段就只有key = "city" 和value = "New York City"。
示例输入:
DUMP A;
(("city", "New York City"), ("city", "Boston"),
("city", "Washington, D.C."), ("non-city-key", "non-city-value"),
("city", "New York City"), ("non-city-key", "non-city-value"))
过滤的示例输出,存储到B:
DUMP B;
("city", "New York City")
("city", "New York City")
【问题讨论】:
标签: hadoop mapreduce apache-pig