【发布时间】:2015-09-03 12:43:09
【问题描述】:
我有一个表格,其中包含 Start 和 EndDate 作为列。我想按月对数据进行分区并在每个月分区上运行算法。
目前,我正在使用日期(StartDtae 和 EndDate)过滤 DataFrame,并按顺序运行每个月的算法。 例如一月和二月,三月等。我们无法通过每月按顺序运行算法来获得 SPARK 并行性的好处
我想为一月、二月、三月的每个月并行运行算法......以利用 Spark 的并行性。
为了向问题添加更多信息,我正在运行算法(它具有一组步骤 A、B、C、D),每个月都按顺序运行,看一下。我想同时运行它们。
请指教。我们如何每个月并行执行算法?
【问题讨论】:
-
您能多谈谈每月算法吗?它是否也具有并行性质,还是每个月对数据按顺序运行?
-
这应该被标记为重复参考:stackoverflow.com/questions/30995699/…
标签: apache-spark apache-spark-sql