【发布时间】:2022-01-12 09:06:17
【问题描述】:
我正在尝试将文件从 FTP 复制到 Blob ,问题是我的管道复制了所有文件,包括旧文件。我想通过仅复制新文件来进行增量加载。你如何配置这个。顺便说一句,在我的 FTP 数据集中,参数 ModifiedStartDate 和 ModifiedEndDate 没有显示。我也想动态配置这些日期
谢谢!
【问题讨论】:
我正在尝试将文件从 FTP 复制到 Blob ,问题是我的管道复制了所有文件,包括旧文件。我想通过仅复制新文件来进行增量加载。你如何配置这个。顺便说一句,在我的 FTP 数据集中,参数 ModifiedStartDate 和 ModifiedEndDate 没有显示。我也想动态配置这些日期
谢谢!
【问题讨论】:
在 Azure 数据工厂中需要做一些工作才能使其正常工作。如果我理解正确,您正在尝试做的是Incrementally Load New Files in Azure Data Factory。您可以通过在目标文件夹中查找最新修改日期来做到这一点。
简而言之(有关更多信息,请参阅上面的链接文章):
- 使用 Get Metadata 活动列出目标文件夹中的所有文件
- 使用 For Each 活动迭代此列表并将修改日期与变量中存储的值进行比较
- 如果该值大于该变量的值,则使用该新值更新该变量
- 使用 Copy Activity 的 Filter by Last Modified 字段中的变量来过滤掉所有已复制的文件
【讨论】: