【问题标题】:Read the last delta partition without read all the delta读取最后一个增量分区而不读取所有增量
【发布时间】:2021-04-02 06:46:49
【问题描述】:

我需要自动读取一个增量文件,并且我只需要读取最后一个创建的分区。所有的三角洲都很大。增量由 yyyymm

划分
val df = spark.read.format("delta").load("url_delta").where(s"yyyy=${yyyy} and mm=${mm}")

我需要知道 yyyy 年和 mm 月的值。读取所有增量并通过max("yyyy")max("mm") 过滤它是无效的

【问题讨论】:

    标签: scala apache-spark databricks delta


    【解决方案1】:

    实际上,如果您在 yyyy 和 mm 上进行分区,那么获取最大年份和月份将是仅元数据操作,只需查看事务日志,因此应该非常快。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-12-06
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-01-19
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多