【发布时间】:2020-08-27 10:54:19
【问题描述】:
很多例子建议读取像spark.read("path/partition=value/*") 这样的数据,但是如何从路径定义列?
例如,我想从path/2019/12/31/* 中读取并获取列year、month、day从路径派生而不是从数据本身。如何用 pyspark 做到这一点?
【问题讨论】:
-
分区中没有名称时如何工作?喜欢
/M/而不是/gender=M/?
标签: python scala apache-spark pyspark data-partitioning