【问题标题】:Does Azure Databricks and Delta Layer make it a Lakehouse?Azure Databricks 和 Delta Layer 是否使其成为 Lakehouse?
【发布时间】:2021-09-02 21:23:00
【问题描述】:
即使在查阅了很多资源后,我仍然无法理解湖屋的构成,因此我的问题如下。
如果我们有 Azure Gen 2 存储、ADF 和 Azure Databricks,并且可以将传入的 CSV 文件转换为 Delta 表,那么这可以称为“Lakehouse”架构还是称为“Delta Lake”?
还是 Delta Lake 层之上的“SQL 分析”引擎使其成为“Lakehouse”?
请澄清。
【问题讨论】:
标签:
databricks
azure-databricks
【解决方案1】:
在高层次上,Lakehouse 必须包含以下属性:
- 开放直接访问数据格式(Apache Parquet、Delta Lake 等)
- 对机器学习和数据科学工作负载的一流支持
- 最先进的性能
Databricks 是第一个 Lakehouse,因为它符合上述三个属性。具体来说,如果您将 Databricks 与 ADLS 一起使用,并将所有数据(json、csv、parquet、消息等)转换为 Databricks 中可用的 Delta 表。然后就是建造 Lakehouse,但它仍然需要建造和支持。 Databricks 平台允许我们满足上面的第 2 点和第 3 点,而 Delta Lake 满足 1 和 3(性能依赖于引擎和存储,这就是为什么 3 被两次提及的原因)。
利用 Databricks 和访问存储在 Delta 中的数据是一个 Lakehouse。通过添加 Databricks SQL(以前称为 SQL Analytics),我们允许更多用户访问和使用 Lakehouse。在 Databricks 中,SQL 用户使用与 Databricks 中的数据工程师相同的计算和数据,只是他们熟悉的 UI 不同。此外,Databricks SQL 针对 SQL 和 BI 工作负载进行了优化,而笔记本环境更适合工程和数据科学
作为有趣的阅读,您应该查看我们的Lakehouse whitepaper。