【发布时间】:2018-10-02 17:51:47
【问题描述】:
我有以下问题。我需要从 ADLS(Azure 数据湖存储)源复制到接收器 ADLS,但只需要最新的文件。每小时,一个 .csv 文件到达源,该文件必须复制到接收器数据湖。例如:
事件:Hour1 - file_01.csv 到达源。 任务:将 file_01.csv 复制到接收数据湖。 事件:Hour2 - file_02.csv 到达源。 任务:将 file_02.csv 复制到接收数据湖。以此类推。
是否有创建基于事件的触发器(源中新文件的到达)?这是我的第一个想法。
另一种方法是创建一个由 Azure 数据湖分析运行的作业。在那里我会提取系统日期和时间(我不知道该怎么做)。选择最新的文件,然后将该文件复制到接收器数据湖中。如何使用 u-sql 声明包含日期和时间的变量?如何使用 u-sql 将数据复制到数据湖中?
总结:如何在数据湖之间制作增量/更新副本?
谢谢
【问题讨论】:
标签: azure azure-data-lake u-sql