使用 spark 将数据插入 hive 表的问题答案

【问题标题】：Issue inserting data into hive table using spark使用 spark 将数据插入 hive 表的问题
【发布时间】：2019-07-20 05:18:04
【问题描述】：

目前我正在使用 Spark 2.1.0 版，作为数据摄取工作的一部分，我必须使用 insertinto 方法将数据摄取到配置单元表中。但 Spark 2.1 版本存在 bug，insertinto 方法在向 hive 表中插入数据时不会保持列顺序。

我已经尝试使用带有附加模式的 saveAsTable 方法，但它不起作用，因为我在数据摄取之前首先使用正确的数据类型手动创建表。

我试图从现有的配置单元表创建火花数据框并尝试从中获取列序列，并传递此列表结果以确保列序列但每次在配置单元表顶部创建数据框以获取列序列。每次加载配置单元表以创建数据框时都会产生内存开销吗？

有人知道，如何在数据摄取到配置单元表期间以更好的方法维护列顺序？

【问题讨论】：

【解决方案1】：

您可以尝试先获取 hive 表的列，然后将它们应用到您的 spark 数据框：

target_table = sqlContext.table("my_target_table")
my_df.select(*target_table.columns).saveAsTable("my_target_table")

【讨论】：