【发布时间】:2016-08-17 23:59:38
【问题描述】:
我有以下格式的 JSON 数据
{"fname":"peter","lname":"parker","reviews":[10,12],"idnum":123456,"gpa":10.5}
我正在使用以下代码:
data = LOAD "my file.json" USING JsonLoader(name:chararray,name:char array,reviews:({(chararray)},{(char array)}),indium:int,gap:float)
dump data;
我只得到
peter,parker
姓氏后面没有。即使我将 char 数组用于 int 和 float 位置,也无法获取这些数据。
另外,如果您知道如何使用逗号分隔将结果数据存储到 .csv 文件。因为,我有一个大文件(> 100GB),我必须将该文件拆分为每个 1 GB,然后运行这个 pig 脚本并进行一些分析,然后想写回 csv 文件,处理后每 1 GB 将附加csv 中的数据,而不是 100 GB JSON 数据的单个 csv。
【问题讨论】:
标签: apache-pig