【发布时间】:2021-01-28 20:46:13
【问题描述】:
我在 HDFS 中有一堆 json snappy 压缩文件。 它们是 HADOOP snappy 压缩的(不是 python,参见其他 SO 问题) 并且有嵌套结构。
找不到加载它们的方法 进入 HIVE(使用 json_tuple)?
我可以获得一些关于如何加载它们的资源/提示
以前的参考资料(没有有效答案)
【问题讨论】:
-
您可以使用 spark 加载 snappy 压缩文件并写入 hive 表.. 这不起作用吗?
-
不,我没有足够大的火花。需要使用HIVE
-
好的,您可以使用与 json snappy 文件相同的模式创建一个带有 json serde 的外部表。
标签: json apache-spark hadoop hive snappy