【问题标题】:Implementing SCD type2 in Data Fusion在数据融合中实现 SCD type2
【发布时间】:2020-02-17 01:53:02
【问题描述】:

我正在尝试在 Datafusion 中实现 type2。有人可以通过使用管道转换/操作/条件来帮助执行插入和更新来实现这一点。我试图使用 Wrangler 为源和目标生成哈希并加入它们。我被打动了,不知道如何确定要更新/插入的内容以及如何处理这些内容。我的目标是 BigQuery 表。

【问题讨论】:

    标签: google-cloud-platform google-groups google-cloud-data-fusion cdap


    【解决方案1】:

    欢迎堆栈溢出@Manasa!

    一旦您考虑将Bigquery 作为目标sink 的仓库,利用SCD type2 合并方法,您可能首先要了解如何通过编写特定的SQL 语句来实现它,从而达到所需的逻辑。说到这里,我鼓励您学习@Hariharan Ramachandran 撰写的精彩文章this,其中解释了SCD 技术以及一些使用Bigquery 服务作为目标数据持有者的示例。

    根据Data Fusion 文档,您可以找到一组丰富的Plugins,扩展标准数据处理工作流程。因此,在这种特殊情况下,我建议实现BigQuery Execute 插件,该插件可以在您的管道中进行调整,执行针对 Bigquery 托管服务的 SQL 查询并执行一些 SCD2 特定操作。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-04-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-12-08
      相关资源
      最近更新 更多