【发布时间】:2019-07-25 13:19:08
【问题描述】:
我有一个数据框,我使用 spark sql(使用动态分区)将其插入到现有的分区配置单元表中。 写入数据框后,我想知道我的数据框刚刚在 hive 中创建的分区是什么。
我可以查询不同分区的数据帧,但它需要很长时间,因为它必须启动数据帧的整个沿袭。
我可以在写入 hive 之前保留数据帧,这样,写入操作和不同的 partition_column 操作就发生在缓存的数据帧之上。但是我的数据框非常大,不想花更多时间在持久化上。
我知道所有的分区信息都存储在 Hive Metastore 中。 spark中是否有任何metastore api可以帮助仅检索已创建的新分区?
【问题讨论】:
-
你对哪一列的数据进行了分区?检查下面..可能会帮助stackoverflow.com/questions/36095790/…
-
数据框中的日期列之一。
标签: apache-spark hive apache-spark-sql