【发布时间】:2018-11-13 03:55:23
【问题描述】:
我正在设计数据工厂管道以将数据从 Azure SQL DB 加载到 Azure 数据工厂。
我的初始加载/POC 是一小部分数据,能够从 SQL 表加载到 Azure DL。
现在,我想使用 DF 将大量表(甚至超过十亿)从 SQL DB 加载到 Azure DL。 MS docs 提到了两个选项,即水印列和更改跟踪。 假设我有一个包含数百万行的“cust_transaction”表,如果我加载到 DL,那么它会加载为“cust_transaction.txt”。 问题。
1) 将源数据从 SQL DB 增量加载到数据湖中的该文件的最佳设计是什么?
2) 如何将文件拆分或分区成更小的文件?
3) 我应该如何将源数据中的增量合并并加载到文件中? 谢谢。
【问题讨论】:
标签: azure azure-data-lake