【发布时间】:2019-07-20 05:18:04
【问题描述】:
目前我正在使用 Spark 2.1.0 版,作为数据摄取工作的一部分,我必须使用 insertinto 方法将数据摄取到配置单元表中。但 Spark 2.1 版本存在 bug,insertinto 方法在向 hive 表中插入数据时不会保持列顺序。
我已经尝试使用带有附加模式的 saveAsTable 方法,但它不起作用,因为我在数据摄取之前首先使用正确的数据类型手动创建表。
我试图从现有的配置单元表创建火花数据框并尝试从中获取列序列,并传递此列表结果以确保列序列但每次在配置单元表顶部创建数据框以获取列序列。每次加载配置单元表以创建数据框时都会产生内存开销吗?
有人知道,如何在数据摄取到配置单元表期间以更好的方法维护列顺序?
【问题讨论】:
标签: apache-spark hive pyspark apache-spark-sql