如何在不与整个数据进行比较的情况下进行增量加载？答案

【问题标题】：How to do Incremental loading without comparing with whole data?如何在不与整个数据进行比较的情况下进行增量加载？
【发布时间】：2022-06-11 17:21:38
【问题描述】：

我试图从我的本地数据湖到 azure 数据湖 gen2 进行增量加载。

select 
ac_id,mbr_id ,act_id ,actdttm,
cretm ,rsltyid,hsid,cdag,cdcts  
from df2_hs2_lakeprd_ACTV_table where cdcts > last modified date

我每天更新或添加的记录非常少。我的源表非常大。当我在上面运行查询时，ADF 复制活动需要大量时间来加载。我认为文件管理器条件是从源表中的所有记录开始检查的，所以这需要时间。

有什么方法我可以查询或任何东西，让它直接从资源。而且我的源表是按日期分区的，分区列将有助于快速加载。

【问题讨论】：

是的，分区列将有助于快速加载。因此，在 where 子句中添加该分区列。
源表的格式是什么？
它是一个外部表，带有 ROW FORMAT SERDE: 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'

【解决方案1】：

为什么不

因此datalake 文件夹将始终具有完整快照。

【讨论】：