【问题标题】:Parse multiple json files in one activity在一项活动中解析多个 json 文件
【发布时间】:2019-10-04 22:30:07
【问题描述】:

我想使用数据工厂定期从 Web API 下载 500000 个 json 文件并将它们存储在 blob 存储容器中。然后我需要解析 json 文件以从每个文件中提取一些值,并将这些值与 ID(文件名的一部分)一起存储在数据库中。我可以使用 ForEach 活动来执行此操作,并为每个文件运行一个自定义活动,但这非常慢,所以我更喜欢一些可以在每个文件上运行相同解析代码的批处理活动。有没有办法做到这一点?

【问题讨论】:

    标签: azure-data-factory azure-data-factory-2


    【解决方案1】:

    如果您的源 json 文件具有相同的架构,您可以利用复制活动,它可以在一次运行中解析这些文件。但如果可能的话,我建议将这些文件拆分到不同的子文件夹中(例如每个文件夹 1000 个文件),这样每次复制运行所需的时间更少,管理也更轻松。

    有关详细信息,请参阅此文档:https://docs.microsoft.com/en-us/azure/data-factory/copy-activity-overview

    【讨论】:

    • 我考虑过 Copy Activity,但我认为它不适用于我的情况: 1. ID 是文件名的一部分,我认为 Copy Activity 不能提取文件名。 2. json文件的schema是一样的,但是我需要有一些逻辑来决定提取哪些字段。
    猜你喜欢
    • 2018-05-02
    • 2017-04-03
    • 2021-09-24
    • 2021-12-12
    • 2011-06-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多