【问题标题】:Implementing SCD type2 in Data Fusion在数据融合中实现 SCD type2
【发布时间】:2020-02-17 01:53:02
【问题描述】:
我正在尝试在 Datafusion 中实现 type2。有人可以通过使用管道转换/操作/条件来帮助执行插入和更新来实现这一点。我试图使用 Wrangler 为源和目标生成哈希并加入它们。我被打动了,不知道如何确定要更新/插入的内容以及如何处理这些内容。我的目标是 BigQuery 表。
【问题讨论】:
标签:
google-cloud-platform
google-groups
google-cloud-data-fusion
cdap
【解决方案1】:
欢迎堆栈溢出@Manasa!
一旦您考虑将Bigquery 作为目标sink 的仓库,利用SCD type2 合并方法,您可能首先要了解如何通过编写特定的SQL 语句来实现它,从而达到所需的逻辑。说到这里,我鼓励您学习@Hariharan Ramachandran 撰写的精彩文章this,其中解释了SCD 技术以及一些使用Bigquery 服务作为目标数据持有者的示例。
根据Data Fusion 文档,您可以找到一组丰富的Plugins,扩展标准数据处理工作流程。因此,在这种特殊情况下,我建议实现BigQuery Execute 插件,该插件可以在您的管道中进行调整,执行针对 Bigquery 托管服务的 SQL 查询并执行一些 SCD2 特定操作。