【问题标题】:How does Azure Purview perform Data Lineage in Azure Data Factory when there are multiple Copy Data Activities on the same Source?当同一源上有多个复制数据活动时,Azure Purview 如何在 Azure 数据工厂中执行数据沿袭?
【发布时间】:2021-04-07 23:44:58
【问题描述】:

我的特殊情况是这样的: Data Factory Pipeline

我在 Azure Blob 存储中有一个 .txt 文件。

  1. 我将此文件在 Blob 中复制到 Azure SQLDB
  2. 我将同一个文件复制到同一个 blob 容器中的存档位置
  3. 然后我在存档后删除文件

当我在 Azure 数据工厂中触发管道时,Purview 给了我一个仅显示存档复制活动的数据沿袭,而从未将 BLOB 显示到 Azure SQLDB 活动。 有关血统,请参阅此屏幕截图:Purview Data Lineage

当我导航到 Purview 中的 Azure SQLDB 目标时,它说没有可用于此资产的数据沿袭。

这是我所做或认为可能是原因的原因:

  1. 可能复制活动需要在不同的管道中。我对此进行了测试,结果相同
  2. 可能是因为我删除了它没有将 Blob 源拾取到 Azure SQLDB 复制活动的文件。我将对此进行测试,但我认为这不太可能,因为它确实将 Blob Source 提取到 Blob Archive Destination 复制活动
  3. 也许它只获取给定源的最后一个复制活动,而不是全部。我对此进行了测试,但它并没有改变数据沿袭。我可能需要在 Azure Purview 中做一些事情来“重置”数据沿袭,但我认为它使用源的最后一个管道运行,我注意到当我将管道分成 2 个管道时它确实更新了数据沿袭(一个用于加载 Azure SQLDB,另一个用于归档 Blob 文件)

我相当坚持这个...我将完全删除存档并看看会发生什么,但根据所有 Microsoft 文档,支持 Azure Blob 和 Azure SQLDB 的数据沿袭,所以这应该可以工作.如果有人有答案或想法,我很想听听。

更新** 我的最新理论是,在运行管道和在 Purview 中刷新 Data Lineage 之间存在时间延迟...我将尝试断开数据工厂并重新连接。

更新 #2** 据我所知,删除数据工厂连接并重新连接没有任何作用。我一直在研究如何通过 REST API 删除资产,这显然是在 Purview 中删除资产/关系的唯一方法......我认为我的下一步将是删除 Purview 帐户和存储。

更新 #3*** 即使在启动新的 Purview 帐户后,沿袭仍无法将 Blob 显示到 Azure SQLDB。我想知道这是否是因为我拥有的 for each 逻辑,但没有意义,因为归档复制活动也在 for each 中。我不知所措。我还有其他从 Blob 复制到 Azure SQLDB 的活动,但不是这个。

谢谢

【问题讨论】:

    标签: azure-data-factory azure-purview


    【解决方案1】:

    经过大量测试。我认为问题在于 Purview 不知道如何处理包含其他列的复制活动

    不起作用:With additional columns

    作品:Without additional columns

    唯一的区别是一个映射了额外的列,而另一个没有。轻微的设计差距...

    我已创建此 Azure 权限功能请求! https://feedback.azure.com/forums/932437-azure-purview/suggestions/42357196-allow-data-lineage-to-be-performed-on-azure-data-f

    请为此投票,以便在未来的版本中实施。

    【讨论】:

      猜你喜欢
      • 2019-03-28
      • 2022-01-04
      • 1970-01-01
      • 2020-09-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-10-21
      • 2020-11-25
      相关资源
      最近更新 更多