使用日期字段对数据帧进行 Spark 分区并在每个分区上运行算法答案

【问题标题】：Spark Partition of Dataframe using Date field and run algorith on each partition使用日期字段对数据帧进行 Spark 分区并在每个分区上运行算法
【发布时间】：2015-09-03 12:43:09
【问题描述】：

我有一个表格，其中包含 Start 和 EndDate 作为列。我想按月对数据进行分区并在每个月分区上运行算法。

目前，我正在使用日期（StartDtae 和 EndDate）过滤 DataFrame，并按顺序运行每个月的算法。例如一月和二月，三月等。我们无法通过每月按顺序运行算法来获得 SPARK 并行性的好处

我想为一月、二月、三月的每个月并行运行算法......以利用 Spark 的并行性。

为了向问题添加更多信息，我正在运行算法（它具有一组步骤 A、B、C、D），每个月都按顺序运行，看一下。我想同时运行它们。

请指教。我们如何每个月并行执行算法？

【问题讨论】：

您能多谈谈每月算法吗？它是否也具有并行性质，还是每个月对数据按顺序运行？
这应该被标记为重复参考：stackoverflow.com/questions/30995699/…

标签： apache-spark apache-spark-sql

【解决方案1】：

您可以简单地使用 groupByKey，使用 Month 作为每个值的键。

【讨论】：

这是一个答案，如果答案只是“如何在某些特定数据上并行运行算法”。如果他有更严格的要求，我会向他询问更多细节。
为了向问题添加更多信息，我正在运行算法（它有一组步骤 A、B、C、D），每个月都按顺序运行，看一下。我想同时运行它们。