【问题标题】:How to repartition in spark based on column?如何根据列在火花中重新分区?
【发布时间】:2019-02-28 19:16:14
【问题描述】:

我想根据日期列重新分区数据框。 就像,我在数据框中有 90 天的数据,我想根据天对数据进行分区,以便我在每个分区中都有每一天

我想要一个像下面这样的语法.. df.repartition("day",90)

在哪里 day => 数据框中的列 90 => 我想要的分区数

【问题讨论】:

    标签: apache-spark pyspark


    【解决方案1】:

    你可以这样做

    import spark.implicits._
    df.repartition(df.select($"day").count().toInt, $"day")
    

    【讨论】:

      猜你喜欢
      • 2016-04-23
      • 1970-01-01
      • 1970-01-01
      • 2017-12-11
      • 2018-07-06
      • 1970-01-01
      • 1970-01-01
      • 2022-12-17
      • 1970-01-01
      相关资源
      最近更新 更多