【发布时间】:2019-07-24 13:41:50
【问题描述】:
我有一个 SSIS 任务,它从 Azure Data Lake 读取 JSON 文件,使用脚本任务中的反序列化命令对其进行解析,并将它们的副本创建为本地 SQL Server 中的表。
这进展顺利,但速度很慢。导入一个目录需要6个小时,而且有很多。
所以我决定以渐进的方式制作它。
起初,我使用条件拆分来避免将旧记录写入本地 SQL 服务器,但这仍然涉及读取整个文件的时间成本。条件拆分是一个有趣的组件,我观察到它只是无缘无故地跳过了一些记录。不好。
那么,为什么不直接跳过我之前导入的整个文件呢?但为此,我需要获取我正在处理的文件的最后修改日期。
现在我知道有一些 .Net 方法可以在纯 c# (Filesystem operations on Azure Data Lake Storage Gen1 using .NET SDK) 中执行此操作,但由于我使用的是 SSIS 的脚本组件,因此我已经与 Data Lake 建立了有效连接。应该更容易吧?
但我找不到方法,感谢这里的任何指导。
干杯
【问题讨论】:
标签: c# ssis azure-data-lake data-lake