如何在 Hadoop 上实现数据沿袭？答案

【问题标题】：How to implement Data Lineage on Hadoop?如何在 Hadoop 上实现数据沿袭？
【发布时间】：2020-05-17 11:37:15
【问题描述】：

我们在金融领域实施的业务流程很少。监管部门的要求（不幸的是，不是很具体）是为了审计目的而拥有数据沿袭。

流程包含两部分：同步和异步。同步部分是包含有关销售点、客户和商品的大量信息的付款尝试。异步部分是一个批处理过程，每小时向信用评估数据模型提供新计算的变量部分。这些变量可能包括一些聚合，例如余额和历史交易的链接。

为了计算异步部分，我们从多个关系数据库中提取数据，并将它们以原始格式（csv 格式的表中的行）存储在 HDFS 中。

当在 HDFS 上存储数据时，会触发基于 Spring XD 计算一些聚合并为同步部分生成数据的作业。

我们有关系数据、HDFS 上的原始数据和依赖于 POJO 的 MapReduce 作业，这些 POJO 描述了 SpringXD 中实现的相关语义和转换。

那么，问题是如何处理上述场景中的审计？我们需要在任何时间点能够解释为什么做出特定决策，并且能够解释策略中使用的每个变量（同步或近实时流）是如何计算的。

我查看了现有的 Hadoop 堆栈，看起来目前没有工具可以提供良好的企业级审计功能。

我的想法是从客户实施开始，包括>

任何建议或分享您的经验将不胜感激！

【问题讨论】：

请在重新回滚之前阅读企业架构师的标签文本。它指的是 Sparx Systems 的 UML 建模工具，而不是架构角色。如果这个问题与 UML 工具有某种关系，请解释一下。
@Uffe 抱歉在这里搞糊涂了。认为这是企业架构。顺便说一句，这只是回滚而不是重新回滚:)

【解决方案1】：

目前，Cloudera 为大数据领域的数据沿袭/数据治理制定了行业标准。

词汇表、元数据和历史运行（版本）的查询都可以得到促进。

我确实意识到，当您提出这个问题时，其中一些可能还没有到位，但现在肯定是。

免责声明：我是 Cloudera 的员工

【讨论】：