【发布时间】:2021-03-19 04:02:38
【问题描述】:
我正在尝试在自定义操作插件中获取数据沿袭元数据,例如数据源/模式和数据目标/模式,该插件在管道中其他步骤成功运行后执行。
我有一个可以执行的基本动作插件,但我无法找到获取所需元数据的方法。
我正在处理的用例是将数据沿袭推入第三方数据治理工具。
如果有人能指出我正确的方向,我将不胜感激!
【问题讨论】:
-
您能否分享有关管道工作流程以及什么是“数据源/模式和数据目标/模式”的更多信息?
-
我正在使用一个非常简单的示例管道,它只是从 Google Cloud Storage 获取一个 CSV 文件,进行一些小的转换并加载到 BigQuery。完成后,我希望通过 Action 插件执行并将元数据推送到第三方系统以跟踪数据沿袭。
-
基本上,我想创建一个通用插件,它可以添加到任何现有的数据融合管道中,该管道将在管道成功执行后执行,并将检测输入源的元数据,检测元数据输出目标并将此元数据推送到第三方系统。插件中唯一需要的配置应该是这个元数据应该发布到的 REST 端点。
-
您是否考虑过在运行结束后使用 HTTPCallback plugin?
-
CDAP 来源Metadata Microservices 怎么样?我认为您可以使用 HTTP Rest 完整 API 来获取元数据。这里有意义吗?
标签: java google-cloud-platform google-cloud-data-fusion cdap