【问题标题】:Spark Partition of Dataframe using Date field and run algorith on each partition使用日期字段对数据帧进行 Spark 分区并在每个分区上运行算法
【发布时间】:2015-09-03 12:43:09
【问题描述】:

我有一个表格,其中包含 Start 和 EndDate 作为列。我想按月对数据进行分区并在每个月分区上运行算法。

目前,我正在使用日期(StartDtae 和 EndDate)过滤 DataFrame,并按顺序运行每个月的算法。 例如一月和二月,三月等。我们无法通过每月按顺序运行算法来获得 SPARK 并行性的好处

我想为一月、二月、三月的每个月并行运行算法......以利用 Spark 的并行性。

为了向问题添加更多信息,我正在运行算法(它具有一组步骤 A、B、C、D),每个月都按顺序运行,看一下。我想同时运行它们。

请指教。我们如何每个月并行执行算法?

【问题讨论】:

标签: apache-spark apache-spark-sql


【解决方案1】:

您可以简单地使用 groupByKey,使用 Month 作为每个值的键。

【讨论】:

  • 这是一个答案,如果答案只是“如何在某些特定数据上并行运行算法”。如果他有更严格的要求,我会向他询问更多细节。
  • 为了向问题添加更多信息,我正在运行算法(它有一组步骤 A、B、C、D),每个月都按顺序运行,看一下。我想同时运行它们。
猜你喜欢
  • 2021-02-05
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-06-18
  • 1970-01-01
相关资源
最近更新 更多