【发布时间】:2019-10-06 06:01:51
【问题描述】:
1) Databricks 提出了 3 层(青铜、银、金),但推荐在哪一层用于机器学习,为什么?我想他们建议在黄金层中清理并准备好数据。
2)如果我们抽象这三层的概念,我们可以认为青铜层是数据湖,白银层是数据库,黄金层是数据仓库吗?我的意思是在功能方面,.
3) Delta 架构是一个商业术语,还是 Kappa 架构的演变,还是 Lambda 和 Kappa 架构的新趋势架构? (Delta + Lambda 架构)与 Kappa 架构有什么区别?
4) 在许多情况下,Delta + Spark 的规模比大多数数据库要大得多,而且通常要便宜得多,如果我们调整得当,我们可以获得快 2 倍的查询结果。我知道将实际趋势数据仓库与 Feature/Agg 数据存储进行比较非常复杂,但我想知道如何进行这种比较?
5) 我曾经使用 Kafka、Kinesis 或 Event Hub 进行流式处理,我的问题是如果我们用 Delta Lake 表替换这些工具会发生什么样的问题(我已经知道一切都取决于很多事情,但我想对此有一个大致的了解)。
【问题讨论】:
标签: apache-spark apache-kafka data-warehouse databricks delta-lake