【发布时间】:2018-02-24 03:50:14
【问题描述】:
场景:
我们有“employees_final”ADLA 目录/表格。
来自不同位置的用户将通过 ADF 调用 U-SQL 将员工数据加载到“employees_final”ADLA 目录/表“并行”中。
当用户加载数据时,它首先进入暂存表(employees_staging)。如果现有记录有更新,那么我们将在临时表(employees_staging)中存储两个版本的数据。下一步是,我们需要有“employees_final”表,其中包含仅最新版本的记录。
为了创建最终表,我们正在加入暂存表和最终表以查找插入/更新员工并将现有记录与新记录和 RECREATE 最终表相结合。
注意:由于没有 DELETE 选项,我们正在缓存现有记录并附加新/更新记录。
这种方法的缺点是,当用户并行运行ADF时,它会尝试更新SAME employees_final表,并且有可能DATA由于 TRUNCATE/RECREATE 表方法而丢失。
我们有更好的方法来处理 PARALLEL 场景吗?
【问题讨论】:
标签: azure-data-lake u-sql