【问题标题】:Can an Data Warehouse include a Data lake?数据仓库可以包含数据湖吗?
【发布时间】:2019-05-12 15:29:49
【问题描述】:

我想更详细地了解数据仓库和数据湖。

在我看来,该主题有不同的信息。 Inmon 将数据仓库定义为

一个面向主题的、集成的、时变的和非易失性的数据集合,以支持管理层的决策过程

现在我明白了,这只是一种架构形式,并不意味着任何技术。这意味着底层数据可以是任何结构,也可以是 S3 对象存储。此外,Waas et al. in On-Demand ELT Architecture for Right-Time BI: Extending the Vision 提出了一个具有 ELT 数据集成流程的数据仓库。

当谈到数据湖时,我发现了以下定义

可扩展的存储库,它以原始格式(“原样”)保存大量原始数据,直到需要它为止,以及可以在不影响数据结构的情况下摄取数据的处理系统(引擎)

取自Data lake governance

现在数据仓库可以成为更严格的数据湖吗?有一种说法是数据仓库必须使用 ETL,但根据 Inmon 的说法,确定不包括对数据转换的任何限制?如果数据集成可以是 ELT 并且那里的转换是敏捷的,例如它可以很容易地扩展。数据仓库看起来很像数据湖。

我的假设是正确的,还是我从一个倾斜的角度看待这个问题。

【问题讨论】:

  • 数据仓库的主要目的之一是将数据转换为针对查询优化的特殊结构(即星型模式)。数据湖无法支持这一目标。如果没有这样的优化,商业智能是非常不切实际的(不是不可能,但效率很低)。我的观点是,数据湖是原始数据的存储库——存储数据仓库输入的地方。它是对数据仓库的补充,但不能替代它。
  • 我同意@RADO。我要补充一点,数据湖通常由进行大量分析和大量实验的数据科学家使用。数据仓库用户往往是临时、自助或业务分析师。两者的用户群不同。在我们的位置,我们认为数据湖是我们逻辑数据仓库的一部分。

标签: data-modeling data-warehouse data-lake


【解决方案1】:

数据仓库和数据湖是服务于不同目的的独立系统,可以/应该互补,并且两者都是更大数据架构的一部分。数据湖作为一个概念,可以只是数据仓库上维度模型的另一个数据源(尽管数据湖的技术实现可以直接查询原始数据)。

您可以将数据湖视为“着陆区”,其中多个系统以“复杂/原始格式”转储数据,例如来自客户支持电话的 MP3 文件,来自 Web 服务器的压缩日志。它的目的是为了历史目的和进一步处理成可以轻松分析/报告的格式,例如从 MP3 文件中提取文本。

数据仓库还聚合来自不同系统的数据,但数据被建模为适合报告的格式(如维度模型),其模型反映了业务/领域的流程和事务,并且通常经过精心策划。

想象一下这种情况:如果您使用网络服务器日志记录对在线商店的访问,您可以将压缩后的日志(“交易数据”)保存在数据湖中,然后将数据处理成维度模型(如 @987654321 @) 这将是“专门为查询和分析而构建的交易数据的副本”,因此业务用户可以轻松地在 Excel 或其他报告工具中探索它。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-11-21
    • 2018-03-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-11-23
    相关资源
    最近更新 更多