【问题标题】:Is it possible to get lineage metadata from the pipeline in my Data Fusion Action plugin?是否可以从我的 Data Fusion Action 插件中的管道获取沿袭元数据?
【发布时间】:2021-03-19 04:02:38
【问题描述】:

我正在尝试在自定义操作插件中获取数据沿袭元数据,例如数据源/模式和数据目标/模式,该插件在管道中其他步骤成功运行后执行。

我有一个可以执行的基本动作插件,但我无法找到获取所需元数据的方法。

我正在处理的用例是将数据沿袭推入第三方数据治理工具。

如果有人能指出我正确的方向,我将不胜感激!

【问题讨论】:

  • 您能否分享有关管道工作流程以及什么是“数据源/模式和数据目标/模式”的更多信息?
  • 我正在使用一个非常简单的示例管道,它只是从 Google Cloud Storage 获取一个 CSV 文件,进行一些小的转换并加载到 BigQuery。完成后,我希望通过 Action 插件执行并将元数据推送到第三方系统以跟踪数据沿袭。
  • 基本上,我想创建一个通用插件,它可以添加到任何现有的数据融合管道中,该管道将在管道成功执行后执行,并将检测输入源的元数据,检测元数据输出目标并将此元数据推送到第三方系统。插件中唯一需要的配置应该是这个元数据应该发布到的 REST 端点。
  • 您是否考虑过在运行结束后使用 HTTPCallback plugin
  • CDAP 来源Metadata Microservices 怎么样?我认为您可以使用 HTTP Rest 完整 API 来获取元数据。这里有意义吗?

标签: java google-cloud-platform google-cloud-data-fusion cdap


【解决方案1】:

正如我在评论中所建议的那样,您可以考虑使用 CDAP system metadata 库存通过 CDAP 现有的 RESTfull API 方法提取所需实体的特定属性,方法是发送适当的 HTTP 请求,如中所述CDAP Metadata Microservices 文档。表示该实体属性还可以描述lineage 的数据集字段以 JSON 格式返回结果。

但是,调整适当的 HTTP 方法主要取决于特定的用例,因此请随时进一步贡献并分享您的进一步发现。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多