如何将多个HDFS文件压缩为一个

【问题标题】：How to compress multiple HDFS files into one如何将多个HDFS文件压缩为一个
【发布时间】：2021-12-18 18:54:26
【问题描述】：

我正在使用write.parquet() 开发 Zeppelin 集群 (w Spark)，我最终得到了多个 Parquet 文件。我想知道，是否可以将它们合并到一个文件中？或者我每次都必须使用path="/folder/*"？

【问题讨论】：

【解决方案1】：

使用重新分区（）：

df.repartition(1).write.parquet(path)

或者，更好的是，coalesce()

df.coalesce(1).write.parquet(path)

【讨论】：