读取最后一个增量分区而不读取所有增量答案

【问题标题】：Read the last delta partition without read all the delta读取最后一个增量分区而不读取所有增量
【发布时间】：2021-04-02 06:46:49
【问题描述】：

我需要自动读取一个增量文件，并且我只需要读取最后一个创建的分区。所有的三角洲都很大。增量由 yyyy 和 mm

划分

val df = spark.read.format("delta").load("url_delta").where(s"yyyy=${yyyy} and mm=${mm}")

我需要知道 yyyy 年和 mm 月的值。读取所有增量并通过max("yyyy") 和max("mm") 过滤它是无效的

【问题讨论】：

【解决方案1】：

实际上，如果您在 yyyy 和 mm 上进行分区，那么获取最大年份和月份将是仅元数据操作，只需查看事务日志，因此应该非常快。

【讨论】：