【问题标题】:Does Azure Databricks and Delta Layer make it a Lakehouse?Azure Databricks 和 Delta Layer 是否使其成为 Lakehouse?
【发布时间】:2021-09-02 21:23:00
【问题描述】:

即使在查阅了很多资源后,我仍然无法理解湖屋的构成,因此我的问题如下。

如果我们有 Azure Gen 2 存储、ADF 和 Azure Databricks,并且可以将传入的 CSV 文件转换为 Delta 表,那么这可以称为“Lakehouse”架构还是称为“Delta Lake”?

还是 Delta Lake 层之上的“SQL 分析”引擎使其成为“Lakehouse”?

请澄清。

【问题讨论】:

    标签: databricks azure-databricks


    【解决方案1】:

    在高层次上,Lakehouse 必须包含以下属性:

    1. 开放直接访问数据格式(Apache Parquet、Delta Lake 等)
    2. 对机器学习和数据科学工作负载的一流支持
    3. 最先进的性能

    Databricks 是第一个 Lakehouse,因为它符合上述三个属性。具体来说,如果您将 Databricks 与 ADLS 一起使用,并将所有数据(json、csv、parquet、消息等)转换为 Databricks 中可用的 Delta 表。然后就是建造 Lakehouse,但它仍然需要建造和支持。 Databricks 平台允许我们满足上面的第 2 点和第 3 点,而 Delta Lake 满足 1 和 3(性能依赖于引擎和存储,这就是为什么 3 被两次提及的原因)。

    利用 Databricks 和访问存储在 Delta 中的数据是一个 Lakehouse。通过添加 Databricks SQL(以前称为 SQL Analytics),我们允许更多用户访问和使用 Lakehouse。在 Databricks 中,SQL 用户使用与 Databricks 中的数据工程师相同的计算和数据,只是他们熟悉的 UI 不同。此外,Databricks SQL 针对 SQL 和 BI 工作负载进行了优化,而笔记本环境更适合工程和数据科学

    作为有趣的阅读,您应该查看我们的Lakehouse whitepaper

    【讨论】:

      猜你喜欢
      • 2022-11-05
      • 1970-01-01
      • 2022-12-18
      • 2021-09-29
      • 2019-05-14
      • 2021-07-26
      • 1970-01-01
      • 2021-09-19
      • 2020-11-04
      相关资源
      最近更新 更多