【发布时间】:2020-07-13 10:47:52
【问题描述】:
我正在使用 Spark 将两个不同的数据帧写入同一个分区,但我希望它们由分区末尾的文件夹分隔。即第一个数据帧将写入yyyy/mm/dd/,第二个数据帧将写入yyyy/mm/dd/rejected/
目前,我可以使用以下代码将第一个数据帧写入yyyy/mm/dd/,将第二个数据帧写入rejected/yyyy/mm/dd:
first_df.repartition('year', 'month', 'day').write \
.partitionBy('year', 'month', 'day') \
.mode("append") \
.csv(f"{output_path}/")
second_df.repartition('year', 'month', 'day').write \
.partitionBy('year', 'month', 'day') \
.mode("append") \
.csv(f"{output_path}/rejected")
任何建议表示赞赏
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql pyspark-dataframes