【发布时间】:2021-07-11 10:45:32
【问题描述】:
我在 Azure Databricks 中以增量表格式存储流数据。为了优化,我目前正在使用 Z 排序。与 Z 排序相比,使用超空间索引子系统有什么好处吗?
【问题讨论】:
-
我相信这是一个正确的问题——它不是关于“什么更好”,而是使用它的好处是什么
标签: apache-spark databricks azure-databricks delta-lake z-order
我在 Azure Databricks 中以增量表格式存储流数据。为了优化,我目前正在使用 Z 排序。与 Z 排序相比,使用超空间索引子系统有什么好处吗?
【问题讨论】:
标签: apache-spark databricks azure-databricks delta-lake z-order
免责声明:我自己没有使用 Hyperspace,只是阅读文档和代码示例。
Hyperspace 按功能更接近 Databricks Delta 实现的 Data Skipping 功能 - 它只允许读取必要的数据。但是在 Databricks 上,数据在写入时会自动进行索引,而在 Hyperspace 中,您需要构建索引并维护它们。
ZOrder 是一个不同的功能 - 它优化了数据的放置,因此经常一起使用的数据更有可能真正放置在一起,因此您将读取更少的文件。超空间没有这个 - 它只是索引数据,数据的位置由底层文件格式定义。
附:这是来自 Databricks 的关于数据跳过和 ZOreder 的精彩 blog post。
【讨论】: