【问题标题】:Azure Data Factory Splitting Multiple JSON Objects In A Single FileAzure 数据工厂在单个文件中拆分多个 JSON 对象
【发布时间】:2020-10-23 09:52:46
【问题描述】:

我正在使用 Azure 数据工厂来监控 AWS S3 存储桶,该存储桶将包含包含由 AWS 进程写出的 JSON 对象的文件。该过程可以将多个 JSON 对象组合成一个文件,对象之间没有 CRLF 或分隔符。我需要 Azure 数据工厂单独处理每个对象,以将它们插入 SQL 数据库。我没有找到任何关于如何处理这种情况的例子。抱歉,如果这在 Azure 数据工厂中是相当基本的,但是,我对该产品相当陌生。

这是文件格式的示例:

{
 "AWSInfoField1": "Test Record 1", 
 "AWSInfoField2": "Just Another Field",
 "Attributes": { 
                "Attribute1": 1, 
                "Attribute2": "Another Attribute" 
                }
}
{
 "AWSInfoField1": "Test Record 2", 
 "AWSInfoField2": "Just Another Field In Record 2", 
 "Attributes": { 
                "Attribute1": 2, 
                "Attribute2": "Another Attribute In Record 2" 
               }
 }
 {
  "AWSInfoField1": "Test Record 3", 
  "AWSInfoField2": "Just Another Field In Record 3", 
  "Attributes": { 
                 "Attribute1": 3, 
                 "Attribute2": "Another Attribute In Record 3" 
                }
 }

【问题讨论】:

  • 嗨@TimWagaman,抱歉回复晚了。我测试并发现数据工厂会自动将默认分隔符“,”添加到 JSON 数据中。您可以按照我的步骤回答。如果我的回答对你有帮助,希望你能采纳。这对其他社区成员可能是有益的。如果您有任何其他问题,请告诉我,谢谢!

标签: azure-data-factory azure-data-factory-2


【解决方案1】:

我将数据复制到存储中的单个文件中(对象之间没有 CRLF 或分隔符):

我试过发现数据工厂会自动将默认分隔符','添加到Source中的JSON数据。我们可以在源数据预览中看到:

然后选择 SQL 数据库作为 sink 并将数据映射到 Sink 表:

运行管道并检查表中的数据:

【讨论】:

    猜你喜欢
    • 2020-12-04
    • 2020-07-29
    • 2020-05-10
    • 1970-01-01
    • 1970-01-01
    • 2017-05-20
    • 2021-05-27
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多