【发布时间】:2022-06-11 17:21:38
【问题描述】:
我试图从我的本地数据湖到 azure 数据湖 gen2 进行增量加载。
select
ac_id,mbr_id ,act_id ,actdttm,
cretm ,rsltyid,hsid,cdag,cdcts
from df2_hs2_lakeprd_ACTV_table where cdcts > last modified date
我每天更新或添加的记录非常少。我的源表非常大。当我在上面运行查询时,ADF 复制活动需要大量时间来加载。我认为文件管理器条件是从源表中的所有记录开始检查的,所以这需要时间。
有什么方法我可以查询或任何东西,让它直接从 资源。而且我的源表是按日期分区的,分区列将有助于快速加载。
【问题讨论】:
-
是的,分区列将有助于快速加载。因此,在 where 子句中添加该分区列。
-
源表的格式是什么?
-
它是一个外部表,带有 ROW FORMAT SERDE: 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
标签: apache-spark hive azure-data-factory azure-databricks