【发布时间】:2021-12-18 18:54:26
【问题描述】:
我正在使用write.parquet() 开发 Zeppelin 集群 (w Spark),我最终得到了多个 Parquet 文件。
我想知道,是否可以将它们合并到一个文件中?或者我每次都必须使用path="/folder/*"?
【问题讨论】:
标签: pyspark hdfs apache-zeppelin
我正在使用write.parquet() 开发 Zeppelin 集群 (w Spark),我最终得到了多个 Parquet 文件。
我想知道,是否可以将它们合并到一个文件中?或者我每次都必须使用path="/folder/*"?
【问题讨论】:
标签: pyspark hdfs apache-zeppelin
使用重新分区():
df.repartition(1).write.parquet(path)
或者,更好的是,coalesce()
df.coalesce(1).write.parquet(path)
【讨论】: