【发布时间】:2021-04-02 06:46:49
【问题描述】:
我需要自动读取一个增量文件,并且我只需要读取最后一个创建的分区。所有的三角洲都很大。增量由 yyyy 和 mm
划分val df = spark.read.format("delta").load("url_delta").where(s"yyyy=${yyyy} and mm=${mm}")
我需要知道 yyyy 年和 mm 月的值。读取所有增量并通过max("yyyy") 和max("mm") 过滤它是无效的
【问题讨论】:
标签: scala apache-spark databricks delta