【发布时间】:2020-06-02 12:58:21
【问题描述】:
我们有 Azure 数据湖以 delta Lake 格式将数据存储在 Parquet 文件中。每次运行后,在合并新数据的地方,我们调用具有 0 小时保留时间的 Vacuum 来删除旧文件并运行优化命令。
但由于某种原因,旧文件没有被删除。不过,databricks 笔记本中没有错误。它说删除了 2 个文件,但我仍然看到它们。我错过了一些明显的东西吗?谢谢!
sqlContext.sql(f"VACUUM '{adls_location}' RETAIN 0 HOURS")
time.sleep(60)
sqlContext.sql(f"VACUUM '{adls_location}' RETAIN 0 HOURS")
time.sleep(60)
sqlContext.sql(f"OPTIMIZE '{adls_location}'")
【问题讨论】:
标签: apache-spark databricks azure-data-lake azure-databricks delta-lake