【发布时间】:2020-10-22 20:21:36
【问题描述】:
我认为这是一个菜鸟问题,但我根本找不到答案。假设我已经将我的数据组织成这样/mnt/raw/mydata/YYYY/MM/DD:
例如:/mnt/raw/mydata/2020/10/20
其中 YYYY 是年,MM 是月,DD 日。我想创建一个可以将字段映射到文件夹名称的视图。我只看到了使用“YEAR=2020”创建视图的示例。这可能吗?
与此处描述的分区发现有关 https://spark.apache.org/docs/latest/sql-data-sources-parquet.html 但我的文件夹没有字段名称。我想知道第一级是字段 YEAR,第二级是月份,第三级是日期。
CREATE TEMPORARY VIEW parquetTable
USING org.apache.spark.sql.parquet
OPTIONS (
path "examples/src/main/resources/people.parquet"
)
【问题讨论】:
-
对不起,我实际上是在谈论创建视图,而我使用的是已经存在的数据,也许我必须在我的数据湖中对我的 forders 进行 padronize 才能在路径上显示恶魔名称。
标签: databricks azure-databricks