【问题标题】:Tool for storing infromation about tables, their sources and ETL for DWH用于存储有关 DWH 的表、它们的源和 ETL 信息的工具
【发布时间】:2020-11-28 12:42:13
【问题描述】:

我正在寻找用于存储我的 DWH 的表、数据源、etl 进程等文档的工具。 我在 youtube 上看过一些演示文稿,但我发现,大多数公司都在使用自定义、自己的系统或类似 wiki 之类的纯文本描述。 我认为,对于分析师、经理和其他用户来说,找出他们需要什么以及如何使用数据来计算适合他们的统计数据并不是那么有用。 请您建议我可以在这种情况下使用什么?我必须阅读什么?

【问题讨论】:

    标签: apache-spark hadoop airflow data-lake


    【解决方案1】:

    在我看来,虽然 Airflow 是用一些 supportApache-Atlas 烘焙的,但

    • 目前最好的数据湖元数据管理工具之一Lyft's Amundsen

    • 他们还发布了lyft/amundsendatabuilder,介绍中说

      Amundsen Databuilder 是一个数据摄取库,其灵感来自 Apache Gobblin。它可以在编排中使用 框架(例如 Apache Airflow)从 Amundsen 构建数据。你可以 将库与临时 python 脚本(example)或 在 Apache Airflow DAG(example) 中。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-12-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多