【问题标题】:Spark can I manually specify the number of partitions when do textFileSpark我可以在执行textFile时手动指定分区数吗
【发布时间】:2019-04-21 11:07:39
【问题描述】:

spark 会根据输入文件的大小自动决定分区的数量。我有两个问题:

我可以指定分区的数量而不是让spark决定多少分区吗?

在进行重新分区时,shuffle 有多糟糕?演出真的很贵吗?我的情况是我需要重新分区为“1”才能写入一个 Parquet 文件,分区为“31”。有多糟糕?为什么?

【问题讨论】:

    标签: apache-spark text-files hive-partitions


    【解决方案1】:

    这个不行,分区数由文件大小决定。

    【讨论】:

      【解决方案2】:

      Repartition 和 coalesce 是用于在读取数据后对数据进行重新分区的两个函数。

      【讨论】:

        猜你喜欢
        • 2015-11-25
        • 2019-04-07
        • 2020-04-18
        • 2011-12-02
        • 2021-08-06
        • 2015-09-30
        • 2015-09-04
        • 2020-07-30
        • 1970-01-01
        相关资源
        最近更新 更多