如何在 Spark 中读取分区数据？

【问题标题】：How to read partitioned data in Spark?如何在 Spark 中读取分区数据？
【发布时间】：2020-08-27 10:54:19
【问题描述】：

很多例子建议读取像spark.read("path/partition=value/*") 这样的数据，但是如何从路径定义列？

例如，我想从path/2019/12/31/* 中读取并获取列year、month、day从路径派生而不是从数据本身。如何用 pyspark 做到这一点？

【问题讨论】：

【解决方案1】：

您的问题：how to define a column from path?

取决于文件格式。 IE。在parquet 上，此信息存储在文件路径中。

如果您的数据框以分区方式存储为带有分区列year, month, day 的镶木地板表，那么它看起来像

/yourParquetLocation/year=2019/month=12/day=31

这样就可以了

spark.read.parquet("/yourParquetLocation/year=2019/month=12/day=31")

【讨论】：