【问题标题】:How to add a validation in azure data factory pipeline to check file size?如何在 azure 数据工厂管道中添加验证以检查文件大小?
【发布时间】:2021-01-15 09:08:39
【问题描述】:

我有多个数据源我想在加载到表之前在 azure 数据工厂中添加一个验证,它应该检查文件大小以使其不为空。因此,如果文件大小超过 10 kb 或者不是空的,则应开始加载,如果为空,则不应开始加载。 我检查了 Azure 数据工厂中的验证活动,但它没有显示文件夹中多个文件的大小。 如果我可以为此验证添加任何 python 笔记本,任何建议基本上都会受到赞赏。

【问题讨论】:

    标签: azure pyspark azure-data-factory azure-data-lake azure-databricks


    【解决方案1】:

    下面的 GIF 展示了如何在 ADF 中实现上述要求的逐步过程。

    【讨论】:

      【解决方案2】:

      在常规活动下使用GetMetadata,然后将结果发送到If Condition

      然后您需要从数据集中获取文件大小。@item().name 是您要获取其大小的文件的名称。

      如果您正在使用目录,请执行以下操作:

      然后检查每个文件的文件大小。

      这就是 ForEach 设置的样子。然后你可以在 ForEach 中使用@item().name 来获取文件。

      数据源需要有参数 FileName。

      【讨论】:

      • 我添加了上述内容,但对于每个活动都无法获取文件大小。您能否展示如何获取每个活动的文件大小
      • @SHIBASHISHTRIPATHY 您是否使用 GetMetadata 从目录中获取每个子项?那么在 ForEach 里面你有没有使用 GetMetadata 来请求每个文件的大小?
      • @JSWilson 如何在每个文件上使用 GetMetadata? GetMetadata 活动仅在其设置中获取数据集
      • @JSWilson 我更仔细地阅读了你的答案,原来是这样:)
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-07-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-07-31
      • 1970-01-01
      相关资源
      最近更新 更多