【发布时间】:2023-04-01 05:57:01
【问题描述】:
我正在尝试使用新的 spark 2.1 csv 选项将 DataFrame 保存到 CSV 中
df.select(myColumns: _*).write
.mode(SaveMode.Overwrite)
.option("header", "true")
.option("codec", "org.apache.hadoop.io.compress.GzipCodec")
.csv(absolutePath)
一切正常,我不介意使用 part-000XX 前缀 但现在似乎添加了一些 UUID 作为后缀
i.e
part-00032-10309cf5-a373-4233-8b28-9e10ed279d2b.csv.gz ==> part-00032.csv.gz
任何人都知道我如何删除这个文件 ext 并且只保留 part-000XX 约定
谢谢
【问题讨论】:
-
感谢@Dhanesh,但我使用的是 S3,所以在文件持久化后重命名并不是那么简单(考虑文件可以大于 5GB)。 part-000XX 没问题。我不太喜欢附加在后缀上的新 UUID 号码
-
只看到两个选项 - 将 s3 文件移动到具有所需名称的新文件,或者保存到本地 FS 或 HDFS,重命名并将其移动到 S3。 stackoverflow.com/questions/21184720/…
标签: apache-spark spark-dataframe spark-csv