【问题标题】:How to compress multiple HDFS files into one如何将多个HDFS文件压缩为一个
【发布时间】:2021-12-18 18:54:26
【问题描述】:

我正在使用write.parquet() 开发 Zeppelin 集群 (w Spark),我最终得到了多个 Parquet 文件。 我想知道,是否可以将它们合并到一个文件中?或者我每次都必须使用path="/folder/*"

【问题讨论】:

    标签: pyspark hdfs apache-zeppelin


    【解决方案1】:

    使用重新分区():

    df.repartition(1).write.parquet(path)
    

    或者,更好的是,coalesce()

    df.coalesce(1).write.parquet(path)
    

    【讨论】:

    • 谢谢,我一定会尽快尝试,但现在或集群已关闭:(
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-12-07
    • 1970-01-01
    • 2018-12-11
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多