【发布时间】:2021-06-26 03:03:06
【问题描述】:
我正在尝试使用数据工厂管道将数据从 gen2 ADLS 复制到另一个 ADLS。 此管道每天运行并仅复制该特定日期的数据。这是通过在复制活动中提供开始和结束时间来完成的。
有时源 ADLS 中的文件会延迟,以便管道运行,但不会复制任何数据。 为了跟踪这一点,我们计划在将数据复制到源 ADLS 后保留一个确认文件,以便在复制之前我们可以检查确认文件并仅在确认文件存在时继续数据复制。
所以检查应该每 10 分钟发生一次 在这 2 小时内,如果文件存在,则数据复制应继续,检查任务也应停止。 如果 2 小时后没有数据,则作业应该失败。
我尝试在 ADF 中执行验证任务。但一个问题是文件夹名称,因为我的文件夹将以数据和创建时间戳命名(例如:2021-03-30-02-19-33)。 我必须在提供文件夹名称时排除文件夹的时间戳部分。 这怎么可能。验证活动是否接受通配符路径?
任何线索如何实现这一点?
有没有办法在get matadata任务中实现10分钟2小时后的连续检查?我们可以通过获取元数据任务来实现上述场景吗?
【问题讨论】:
标签: azure azure-data-factory azure-data-factory-2 azure-data-lake azure-data-lake-gen2