是否可以在单个数据帧上并行运行多个聚合作业？答案

【问题标题】：Is it possible to run multiple aggregation jobs on a single dataframe in parallel in spark?是否可以在单个数据帧上并行运行多个聚合作业？
【发布时间】：2016-06-25 20:48:18
【问题描述】：

有没有办法在单个 RDD 上并行运行多个独立的聚合作业？首选是 Python，然后是 Scala 和 Java。

按优先顺序排列的行动过程是 -

使用线程池 - 运行不同的函数，在不同的线程上进行不同的聚合。我没有看到这样做的示例。
在 yarn 上使用集群模式，提交不同的 jar。这可能吗，如果是，那么在 pyspark 中是否可能？
使用 Kafka - 在通过 kafka 流式传输的数据帧上运行不同的 spark-submits。

我对 Spark 还很陌生，我的经验范围包括在 Yarn 上运行 Spark 以进行 ETL 串行执行多个聚合。我在考虑是否可以并行运行这些聚合，因为它们大多是独立的。

【问题讨论】：

标签： apache-spark parallel-processing pyspark etl

【解决方案1】：

考虑您的广泛问题，这里有一个广泛的答案：

是的，可以在单个 DataFrame 上并行运行多个聚合作业。

对于其余部分，您似乎不清楚您在问什么。

【讨论】：

谢谢！你能指出如何做到这一点吗？我试图搜索相同的内容，但遇到了非常模糊的答案。很抱歉我不清楚我在问什么。
对不起。我不能再详细说明了。它相当广泛。 Spark 是一个并行数据处理引擎。对于这么宽泛的问题，我无法给出具体的答案。请阅读如何在 StackOverflow 上提问，它可能会帮助您查看问题。