【发布时间】:2020-06-30 06:57:46
【问题描述】:
我正在研究使用 AWS Athena 对大量 JSON 文件进行查询。
我的 JSON 文件具有这种格式(为了方便而进行了漂亮的打印):
{
"data":[
{<ROW1>},
{<ROW2>},
...
],
"foo":[...],
"bar":[...]
}
“数据”数组中包含的 ROW 是应该查询的内容。 JSON 文件的其余部分并不重要。
可以在不修改 JSON 文件的情况下做到这一点吗? 如果可以,怎么做?从我所能找到的来看,看起来 SerDes(或者它是 Hive 本身?)假设每行输入有一行输出,这意味着我坚持修改我的所有 JSON 文件(并将它们到 JSONL?),然后再将它们上传到 S3。
(Athena 使用 Hive JSON SerDe 和 OpenX JSON SerDe;AFAICT,没有选项可以编写我自己的 SerDe 或文件格式...)
【问题讨论】:
标签: json hive rows amazon-athena