【问题标题】:How to read partitioned data in Spark?如何在 Spark 中读取分区数据?
【发布时间】:2020-08-27 10:54:19
【问题描述】:

很多例子建议读取像spark.read("path/partition=value/*") 这样的数据,但是如何从路径定义列?

例如,我想从path/2019/12/31/* 中读取并获取列yearmonthday从路径派生而不是从数据本身。如何用 pyspark 做到这一点?

【问题讨论】:

标签: python scala apache-spark pyspark data-partitioning


【解决方案1】:

您的问题:how to define a column from path?

取决于文件格式。 IE。在parquet 上,此信息存储在文件路径中。

如果您的数据框以分区方式存储为带有分区列year, month, day 的镶木地板表,那么它看起来像

/yourParquetLocation/year=2019/month=12/day=31

这样就可以了

spark.read.parquet("/yourParquetLocation/year=2019/month=12/day=31")

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-01-29
    • 1970-01-01
    • 2021-07-23
    • 1970-01-01
    • 1970-01-01
    • 2021-08-24
    相关资源
    最近更新 更多