【问题标题】:How to Build Incremental data loading?如何构建增量数据加载?
【发布时间】:2018-06-20 01:02:42
【问题描述】:

我找到了这个博客 (https://docs.microsoft.com/en-us/azure/data-factory/tutorial-incremental-copy-overview) 并尝试了它,它对移动数据 b/w sql server 和 azure 数据库非常有帮助,但是我如何构建这样的东西来在 B/w On 中复制数据Prem SQL Server 和 Azure 数据仓库??

有什么链接可以让我开始使用吗?

我找到了各种链接,但是当我谈论 Delta 数据加载时它们不是很合理?

有什么方法可以使用 ADF V1 实现这一目标?或者这只能使用 ADF V2??

【问题讨论】:

    标签: azure azure-data-factory azure-sqldw


    【解决方案1】:

    指南的变更跟踪部分仍然相关。您需要一些方法来确定 SQL Server 本地实例上需要推送到 Azure SQL DW 的增量数据是什么。不同的是如何将增量数据推送到 SQL DW。

    如果您有使用 SSIS 构建的东西,它可以与 SQL DW 一起使用。下载适用于 SSIS 的 Azure 包以获取 SQL DW 优化的工作流。如果您已经使用 ADF 或者可以启动其他服务,ADF 也可以这样做。

    在最简单的情况下,您可以将增量数据导出到 csv 文件中,使用 azcopy 推送到 blob 存储,然后通过外部表插入您的 SQL DW。对于小型数据集,这可以正常工作,并且可以使用脚本自动化以最大程度地降低风险和劳动力。大型数据集将更加棘手,因为插入是昂贵的完全记录操作。查看Minimal logging with bulk load 以获取有关如何最小化地记录 INSERT.....SELECT 及其发生条件的提示。虽然分区是一种有效的策略,但对于大多数日常增量负载环境来说,这并不是一个好主意,主要是因为没有足够的数据来构建具有聚集列存储表的高质量行组。在重建索引之前,这可能会导致查询性能不佳。每天针对单个负载操作而不是每天数十、数百或数千个查询进行优化通常不是正确的权衡。

    【讨论】:

    • 是否可以使用更改跟踪将数据推送到 ADW,包含多个数据?我有 1k+ 表需要插入 ADW,现在我正在尝试使用 ADF V1,切片值进行数据加载,但我发现,我需要在复制预览中为每个表 A/Q 设置脚本到每个表的 Datetime 列,当我们谈论 1k+ 个表时它非常乏味,而且我的一些表不包含可用于每天加载数据的 datetime 列。我真的被困在这部分,没有任何文档可以帮助我。
    • 今天,SQL 数据仓库不支持来自 SQL Server 的 CDC 以增量方式加载数据。您可以使用 SSIS 工作流、ADF 管道或任何第三方认证合作伙伴 (docs.microsoft.com/en-us/azure/sql-data-warehouse/…) 来执行 CDC。
    • 当 matt 正确时,您可以在源表上放置 CDC 或更改跟踪(假设 SQL Server、azure DB 仅支持 CT)并使用 SSIS 加载结果数据。您还可以利用 azure 功能包自动使用 polybase 来加载生成的更改集。然后,您需要使用以下模式解析 SQL DW 中的增量:docs.microsoft.com/en-us/azure/sql-data-warehouse/…
    猜你喜欢
    • 2010-12-27
    • 2020-12-27
    • 1970-01-01
    • 2018-11-03
    • 2020-12-10
    • 1970-01-01
    • 2019-11-15
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多