【问题标题】:Create Azure Batch activity in Data factory在数据工厂中创建 Azure Batch 活动
【发布时间】:2021-06-18 09:22:25
【问题描述】:

我想在我的数据工厂管道中创建一个 Azure Batch 活动,我设置了一个触发器来检查过去 24 小时内是否存在新的“最后修改”的 blob。
在处理大文件时,我想在同一台机器上同时利用 Azure Batch 和多进程 2 个 blob 的强大功能。
这是我到目前为止所做的管道:

第二个活动通过创建 {container name}/{blob} 的列表变量来操作前一个活动的输出。
如何将我的 blob 地址分成小批量,以便将它们提供给下一批活动?
谢谢

【问题讨论】:

    标签: azure azure-data-factory azure-data-factory-2 azure-batch


    【解决方案1】:

    默认情况下,“ForEach”活动并行运行,因此默认情况下它会启动至少 20 个线程,最多可启动 50 个,具体取决于您的输入进程。确保您的 ForEach 上的“顺序”框未选中

    如果您需要分组为更大的组,例如每批 3 个,每批 5 个,那么这可能会有点棘手,我会寻找例如 Stored Proc 活动、Databricks 笔记本或 Synapse Notebook 来稍微做到这一点对我来说更复杂的工作。

    【讨论】:

    • 好的,那么 DB notebook 允许您处理 Az Data 工厂范围内的变量吗?我是 Azure 的新手,我正在努力解决它。
    • 是的,您可以通过 Azure 数据工厂将参数传递给 Databricks Notebooks。
    • 我想我会在 AZ 函数中做所有事情。一个问题:如何构建包含变量的 JSON 主体?
    • 这是一个单独的问题。我建议您在带有数据工厂的 Azure Functions 上 follow a few tutorials 然后根据您尝试过的内容、遇到的错误等发布一个单独的问题 我认为这个问题已经完成,您应该将其中一个答案标记为有帮助对你有帮助。
    猜你喜欢
    • 2021-07-02
    • 2020-06-11
    • 1970-01-01
    • 1970-01-01
    • 2021-12-17
    • 2022-01-04
    • 1970-01-01
    • 1970-01-01
    • 2022-11-11
    相关资源
    最近更新 更多