【发布时间】:2021-12-17 11:18:36
【问题描述】:
我正在尝试将所有 json 文件存储在 blob 存储的子文件夹中的单个容器中。我已经在数据块中设置了环境并链接了连接。目前我正在使用此代码
df = spark.read.json("wasbs://container_name@blob_storage_account.blob.core.windows.net/sub_folder/*.json")
但即使包含通配符/*.json,我也只得到第一个文件,而不是子文件夹中存在的所有 json 文件。
我正在尝试从单个数据框中的子文件夹中获取所有文件,并将其作为表存储在 sql 数据库中。
有人可以帮助我解决我的遗漏。
【问题讨论】:
-
我觉得不错。你怎么知道它只读取一个文件?
-
@pltc 因为当我使用 df.display() 时它只显示第一个文件数据。有没有更好的方法来检查我是否拥有所有文件的数据?
-
呵呵,只显示有限的数据量。您是否尝试查询数据?
-
databricks 仅显示前 1000 条记录。你应该数数
标签: python pyspark azure-blob-storage databricks