【发布时间】:2020-10-13 06:46:46
【问题描述】:
我正在摄取大型 XML 文件并根据 XML 元素生成单独的 JSON,我在 azure databricks 中使用 SPARK-XML。 将 json 文件创建为的代码
commercialInfo
.write
.mode(SaveMode.Overwrite)
.json("/mnt/processed/" + "commercialInfo")
我能够提取 XML 元素节点并写入 Azure 存储容器。 在容器中创建了一个文件夹,并且在文件夹中我们的名称是 guid 而不是文件名。
任何人都可以建议我们是否可以控制在容器中创建的文件名,即 part-0000 变成有意义的名称,以便可以使用一些 Azure Blob 触发器读取它。
【问题讨论】:
标签: scala azure-blob-storage azure-databricks apache-spark-xml