【发布时间】:2021-11-01 22:38:06
【问题描述】:
同时调用 Databricks (Delta) Optimize 和 Vacuum 是否有意义?这似乎是有道理的,但我不想只是推断要做什么。我想问。
递归清理与 Delta 表关联的目录,并删除不再处于表事务日志的最新状态且早于保留阈值的数据文件。文件被删除是根据它们从 Delta 的事务日志中逻辑删除的时间 + 保留时间,而不是它们在存储系统上的修改时间戳。默认阈值为 7 天。
优化 Delta Lake 数据的布局。可选择优化数据子集或按列共置数据。如果不指定 colocation,则执行 bin-packing 优化。
第二个问题:如果答案是肯定的,那么最好的操作顺序是什么?
-
Optimize然后Vacuum -
Vacuum然后Optimize
【问题讨论】:
标签: databricks azure-databricks delta-lake