【问题标题】:ADF Limitation : Number of COPY Data Activities in One Pipeline?ADF 限制:一个管道中的 COPY 数据活动数量?
【发布时间】:2020-08-07 12:39:03
【问题描述】:

我有大约 25 个 CSV 文件,其中包含不同的列(BLOB 存储),每个大约有 250 列,并且想要加载它 Azure SQL DB 单独的表(基本层)。

创建了一个具有 10 个 COPY 数据活动 (CDA) 的管道,所有这些都在一个管道中并行启动并执行它。 ADF 管道只是继续运行而不执行任何任务。当我将 CDA 减少到 7 时,管道会在几秒钟内工作并加载数据。为了检查 SQL 数据库是否有任何连接限制,同时执行了 3 个管道,每个管道有 7 个 CDA,并且它工作正常。

这里的问题是 --> 我们可以在管道中拥有的 CDA 数量是否有任何限制/限制。如果是,可以做些什么来改变它?

-谢谢

--EDIT 添加了屏幕截图帖子,应用提供的解决方案来更改并行副本的属性。

【问题讨论】:

    标签: azure azure-data-factory azure-data-factory-2


    【解决方案1】:

    是的,有限制。由于您要从 Blob 文件存储转到 Azure SQL DB,因此要增加并行副本的数量,您需要设置 parallelCopies 属性。

    "activities":[
        {
            "name": "Sample copy activity",
            "type": "Copy",
            "inputs": [...],
            "outputs": [...],
            "typeProperties": {
                "source": {
                    "type": "BlobSource",
                },
                "sink": {
                    "type": "AzureSQLDBSink"
                },
                "parallelCopies": 32
            }
        }
    ]
    

    从文件存储到非文件存储 - 将数据复制到 Azure SQL 数据库或 Azure Cosmos DB 时,默认并行复制还取决于接收器层(DTU/RU 的数量)。

    • 将数据复制到 Azure Table 时,默认并行副本为 4。

    https://docs.microsoft.com/en-us/azure/data-factory/copy-activity-performance-features

    【讨论】:

    • 感谢您尝试提供解决方案。我尝试了您的方法并添加了屏幕截图以便更好地理解。它确实让我执行了更多的 DCA。然而所消耗的时间是天文数字。日志显示在大约 19 秒内执行的所有 DCA。那为什么管道花了 9 分钟?
    • @Akshay 你能截屏你的显示器细节吗?如果所有 Copy 活动在 19 秒内完成,但整个管道需要 9 分钟完成,它们是否出于某种原因按顺序运行?如果您分享您的监视器/日志详细信息,我们可以深入挖掘。
    • @Akshay 要尝试的另一件事是覆盖 COPY 活动上的默认数据集成单元 (DIU)。
    • 如果有办法检查您正在寻找的日志类型,您能否指导我。为耗时 9 分钟的特定执行添加“PipeLine Runs”的新图像。除了我从监视器日志中发布的图像之外,我如何检查它们是否按顺序执行?
    • 从该屏幕截图中,它们似乎都在一秒钟内相互触发,因此它们是并行运行的。如果您将鼠标悬停在监视器中的复制活动上,您应该会看到一个看起来像一副眼镜的详细信息图标。单击它并验证详细信息。查看复制持续时间,以及队列持续时间和第一个字节的时间。如果您报告的所有 COPY 活动都在 1 秒内开始,那么这 9 分钟的时间肯定是有问题的。
    猜你喜欢
    • 1970-01-01
    • 2022-07-26
    • 1970-01-01
    • 2019-12-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-08-23
    • 1970-01-01
    相关资源
    最近更新 更多