【发布时间】:2018-06-06 06:18:38
【问题描述】:
我在 Azure 数据湖存储中有一个大型数据集,每天可能会在那里添加/更新一些文件。如何处理这些新文件而不每次都读取整个数据集? 我需要使用 Data Factory V1 将这些新文件复制到 SQL 服务器。
【问题讨论】:
标签: azure azure-storage azure-data-factory
我在 Azure 数据湖存储中有一个大型数据集,每天可能会在那里添加/更新一些文件。如何处理这些新文件而不每次都读取整个数据集? 我需要使用 Data Factory V1 将这些新文件复制到 SQL 服务器。
【问题讨论】:
标签: azure azure-storage azure-data-factory
如果您可以使用 ADF V2,那么您可以使用获取元数据活动来获取每个文件的 lastModifiedDate 属性,然后只复制新文件。你可以参考这个文档。 https://docs.microsoft.com/en-us/azure/data-factory/control-flow-get-metadata-activity
【讨论】: