【发布时间】:2015-05-20 23:24:21
【问题描述】:
我正在使用 Python-Django 框架开发 ELT 工具。
在该工具中,我们可以安排作业并将其发布到 Apache Oozie。
我需要为每个作业实施数据沿袭报告。总的来说,我在 wiki 中探索了“什么是数据沿袭”。
我需要帮助 - 我应该如何实现这个数据沿袭?无需使用任何外部工具和 Apache Falcon。
【问题讨论】:
我正在使用 Python-Django 框架开发 ELT 工具。
在该工具中,我们可以安排作业并将其发布到 Apache Oozie。
我需要为每个作业实施数据沿袭报告。总的来说,我在 wiki 中探索了“什么是数据沿袭”。
我需要帮助 - 我应该如何实现这个数据沿袭?无需使用任何外部工具和 Apache Falcon。
【问题讨论】:
因为您使用的是 Python-Django 框架,并且您的大部分作业调度都是使用 Oozie 进行的,所以建议您使用 Falcon 进行 Lineage 跟踪。它在 hadoop 生态系统中易于使用和跟踪沿袭。
但是,如果您不想使用 Apache Falcon,您始终可以实现任何图形数据库(Neo4J 或 TitanDB)并使用 D3.js 绘制图形。为此,您需要以特定模式将沿袭(图)变量存储在 GraphDB 中。一旦在 GraphDB 中设置了所有内容,就很容易编写 D3 java 脚本来检索它们并绘制图形。
您可以在此处阅读有关 D3 的更多信息:
http://chimera.labs.oreilly.com/books/1230000000345/index.html
【讨论】: