【问题标题】:Incremental loading of files from On-prem file server to Azure Data Lake将文件从本地文件服务器增量加载到 Azure Data Lake
【发布时间】:2018-09-22 20:18:54
【问题描述】:

我们希望使用 Azure Data Factory v2 将文件从本地文件服务器增量加载到 Azure Data Lake。

文件应该每天存储在本地文件服务器中,我们必须在白天定期运行 ADFv2 管道,并且只应捕获文件夹中未处理的新文件。

【问题讨论】:

    标签: azure azure-data-factory azure-data-lake azure-data-factory-2


    【解决方案1】:

    我们的建议是将每天提取的文件集放入 /YYYY/MM/DD 目录中。如何使用系统变量(@trigger().scheduledTime)从对应目录读取文件,可以参考这个例子:

    https://docs.microsoft.com/en-us/azure/data-factory/how-to-read-write-partitioned-data

    【讨论】:

      【解决方案2】:

      在源数据集中,您可以进行文件过滤。例如,您可以按时间进行(在表达式语言中调用 datetime 函数)或其他定义新文件的方法。 https://docs.microsoft.com/en-us/azure/data-factory/control-flow-expression-language-functions 然后使用预定的触发器,您可以在一天中执行 n 次管道。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2019-04-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多