【问题标题】:Create index for tables within Delta Lake为 Delta Lake 中的表创建索引
【发布时间】:2022-04-30 03:31:39
【问题描述】:

我是 Delta Lake 的新手,但我想为 Delta Lake 中的某些表创建一些索引以便快速检索。根据文档,它表明最接近的是通过创建数据跳过然后索引跳过的部分:

create DATASKIPPING index on [TableName] [DBName.]tableName

除了数据跳过之外,似乎找不到其他创建索引的方法

如何在 Delta Lake 中像 RDBMS 中的任何表一样创建索引?

谢谢!

【问题讨论】:

    标签: apache-spark indexing delta-lake


    【解决方案1】:

    索引发生在automatically on Databricks DeltaOSS Delta Lake as of v1.2.0。在您写入数据时,您写入的文件中的列会被索引并添加到​​内部表元数据中。当您查询数据和过滤器时,会应用数据跳过。

    此外,您可以在 Databricks Delta 上使用 z-order 来优化基于特定列的文件。同样,索引仍将用于其他列。

    【讨论】:

    • 开源版本好像没有实现这个功能:(
    • 添加评论以阐明 OSS 正在处理它
    • 现在也包含在 OSS Delta Lake 中
    猜你喜欢
    • 2023-03-03
    • 2021-01-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-10-13
    • 2020-11-23
    • 2023-01-09
    相关资源
    最近更新 更多