【发布时间】:2015-08-14 22:17:13
【问题描述】:
我有一个这样的 JSON 对象数组。 [ 和 ] 封装的每个数组都在一行上。
[{"event":0,"properties":{"color":"red","connectionType":2}}{"event":30,"properties":{"color":"blue","connectionType":4}},{"event":45,"properties":{"color":"green","connectionType":3}}]
[{"event":0,"properties":{"color":"red","connectionType":5}},
{"event":1,"properties":{"color",:"blue","connectionType":6}}]
这里的格式更容易阅读。
[
{"event":0, "properties":{"color":"red","connectionType":2}},
{"event":3, "properties":{"color":"blue",'connectionType":4}},
{"event":45, "properties":{"color":"green","connectionType":3}}
]
[
{"event":0, "properties":{"color":"red","connectionType":5}},
{"event":1, "properties":{"color":"blue","connectionType":6}}
]
有些事情需要注意,所以 [ ] 中的每个 JSON 对象都在一行中。每行中的对象数量各不相同。属性内的字段数量也各不相同。
我想要这些数据是获取每个 JSON 对象并将其以逗号分隔或制表符分隔值的形式转换为表格格式
| event | color | connectionType
0 red 2
3 blue 4
我查看了 PIG 用于读取 JSON 结构的一些工具 - 即大象鸟,但不能完全让它在我的数据上工作。
我希望获得有关替代解决方案的指针,或使用 elephant-bird / 其他 pig json 解析器 的示例代码。我的最终目标实际上只是捕获事件和属性的子集并将它们加载到 Hive 中。
【问题讨论】:
标签: hadoop hive apache-pig hdfs