【发布时间】:2020-06-15 01:21:54
【问题描述】:
我使用以下命令将 pyspark 数据帧保存到 s3:
df.coalesce(1).write.partitionBy('DATE'
).format("com.databricks.spark.csv"
).mode('overwrite'
).option("header", "true"
).save(output_path)
这给了我:
file_path/FLORIDA/DATE=2019-04-29/part-00000-1691d1c6-2c49-4cbe-b454-d0165a0d7bde.c000.csv
file_path/FLORIDA/DATE=2019-04-30/part-00000-1691d1c6-2c49-4cbe-b454-d0165a0d7bde.c000.csv
file_path/FLORIDA/DATE=2019-05-01/part-00000-1691d1c6-2c49-4cbe-b454-d0165a0d7bde.c000.csv
file_path/FLORIDA/DATE=2019-05-02/part-00000-1691d1c6-2c49-4cbe-b454-d0165a0d7bde.c000.csv
是否有一种简单的方法可以在 s3 中重新格式化此路径以遵循此结构?:
file_path/FLORIDA/allocation_FLORIDA_20190429.csv
file_path/FLORIDA/allocation_FLORIDA_20190430.csv
file_path/FLORIDA/allocation_FLORIDA_20190501.csv
file_path/FLORIDA/allocation_FLORIDA_20190502.csv
我有几千个这样的,所以如果有一种编程方式可以做到这一点,那将不胜感激!
【问题讨论】:
-
这篇文章可以帮到你:stackoverflow.com/questions/32501995/…
标签: amazon-web-services amazon-s3 pyspark