【发布时间】:2021-10-17 10:01:49
【问题描述】:
我想使用 sql 查询从 hive 中提取数据,将其转换为嵌套数据帧,并使用 spark 将其推送到 mongodb。 谁能提出一个有效的方法来做到这一点。
例如: 平面查询结果 --> {"columnA":123213 ,"Column3 : 23,"Column4" : null,"Column5" : "abc"}
要推送到 mongo 的嵌套记录 --> { “列A”:123213, “新列”:{ “第 3 列:23, “列 4”:空, “第 5 列”:“abc” } }
【问题讨论】:
-
您是否正在寻找将 pyspark/scala 代码写入 1. 从 hive 读取数据 2. 执行转换以创建嵌套数据和 3. 将此数据写入 mongodb 的答案,或者您是否正在寻找答案将演示如何执行转换以创建嵌套数据?
-
@ggordon 可以从 hive 中提取平面数据,但了解如何执行该数据的转换以创建嵌套数据然后将该数据推送到 mongodb 会很有帮助
标签: sql mongodb dataframe apache-spark hive