【发布时间】:2021-11-01 08:40:07
【问题描述】:
我正在从 Datalake 读取并连接多个 delta 表,并将结果存储回另一个 Deltalake 位置。这样做时,Databricks 向我展示:
根据我相互连接的增量表的数量,这可能需要很长时间。即使是艰难的加入本身也只需要几分钟,状态更新需要长达一个小时。
当我看到Updating the Delta table's state 时发生了什么?我可以以某种方式对此进行优化吗?
【问题讨论】:
标签: python pyspark databricks azure-databricks delta-lake