【问题标题】:Read multiple json files from blob storage to dataframe using pyspark in databricks使用databricks中的pyspark将多个json文件从blob存储读取到数据帧
【发布时间】:2021-12-17 11:18:36
【问题描述】:

我正在尝试将所有 json 文件存储在 blob 存储的子文件夹中的单个容器中。我已经在数据块中设置了环境并链接了连接。目前我正在使用此代码

df = spark.read.json("wasbs://container_name@blob_storage_account.blob.core.windows.net/sub_folder/*.json")

但即使包含通配符/*.json,我也只得到第一个文件,而不是子文件夹中存在的所有 json 文件。

我正在尝试从单个数据框中的子文件夹中获取所有文件,并将其作为表存储在 sql 数据库中。

有人可以帮助我解决我的遗漏。

【问题讨论】:

  • 我觉得不错。你怎么知道它只读取一个文件?
  • @pltc 因为当我使用 df.display() 时它只显示第一个文件数据。有没有更好的方法来检查我是否拥有所有文件的数据?
  • 呵呵,只显示有限的数据量。您是否尝试查询数据?
  • databricks 仅显示前 1000 条记录。你应该数数

标签: python pyspark azure-blob-storage databricks


【解决方案1】:

我已经在我的环境中测试过。

我在存储帐户中容器的子文件夹中有 3 个 json blob 文件。我能够读取单个数据框中的所有 blob json 文件

您可以使用以下代码在单个数据框中显示子文件夹中的所有 json 文件

df = spark.read.json("wasbs://container_name@blob_storage_account.blob.core.windows.net/sub_folder/*.json")
df.show()

【讨论】:

    猜你喜欢
    • 2022-01-19
    • 2019-08-06
    • 2023-01-30
    • 2020-07-05
    • 1970-01-01
    • 1970-01-01
    • 2020-05-28
    • 2018-11-04
    • 2021-04-25
    相关资源
    最近更新 更多