【问题标题】:Data Lineage Report in hadoophadoop 中的数据沿袭报告
【发布时间】:2015-05-20 23:24:21
【问题描述】:

我正在使用 Python-Django 框架开发 ELT 工具。

在该工具中,我们可以安排作业并将其发布到 Apache Oozie。

我需要为每个作业实施数据沿袭报告。总的来说,我在 wiki 中探索了“什么是数据沿袭”。

我需要帮助 - 我应该如何实现这个数据沿袭?无需使用任何外部工具和 Apache Falcon。

【问题讨论】:

    标签: python django hadoop


    【解决方案1】:

    因为您使用的是 Python-Django 框架,并且您的大部分作业调度都是使用 Oozie 进行的,所以建议您使用 Falcon 进行 Lineage 跟踪。它在 hadoop 生态系统中易于使用和跟踪沿袭。

    但是,如果您不想使用 Apache Falcon,您始终可以实现任何图形数据库(Neo4J 或 TitanDB)并使用 D3.js 绘制图形。为此,您需要以特定模式将沿袭(图)变量存储在 GraphDB 中。一旦在 GraphDB 中设置了所有内容,就很容易编写 D3 java 脚本来检索它们并绘制图形。

    您可以在此处阅读有关 D3 的更多信息:

    http://chimera.labs.oreilly.com/books/1230000000345/index.html

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-06-02
      • 1970-01-01
      相关资源
      最近更新 更多