使用databricks中的pyspark将多个json文件从blob存储读取到数据帧答案

【问题标题】：Read multiple json files from blob storage to dataframe using pyspark in databricks使用databricks中的pyspark将多个json文件从blob存储读取到数据帧
【发布时间】：2021-12-17 11:18:36
【问题描述】：

我正在尝试将所有 json 文件存储在 blob 存储的子文件夹中的单个容器中。我已经在数据块中设置了环境并链接了连接。目前我正在使用此代码

df = spark.read.json("wasbs://container_name@blob_storage_account.blob.core.windows.net/sub_folder/*.json")

但即使包含通配符/*.json，我也只得到第一个文件，而不是子文件夹中存在的所有 json 文件。

我正在尝试从单个数据框中的子文件夹中获取所有文件，并将其作为表存储在 sql 数据库中。

有人可以帮助我解决我的遗漏。

【问题讨论】：

我觉得不错。你怎么知道它只读取一个文件？
@pltc 因为当我使用 df.display() 时它只显示第一个文件数据。有没有更好的方法来检查我是否拥有所有文件的数据？
呵呵，只显示有限的数据量。您是否尝试查询数据？
databricks 仅显示前 1000 条记录。你应该数数

标签： python pyspark azure-blob-storage databricks

【解决方案1】：

我已经在我的环境中测试过。

我在存储帐户中容器的子文件夹中有 3 个 json blob 文件。我能够读取单个数据框中的所有 blob json 文件

您可以使用以下代码在单个数据框中显示子文件夹中的所有 json 文件

df = spark.read.json("wasbs://container_name@blob_storage_account.blob.core.windows.net/sub_folder/*.json")
df.show()

【讨论】：