【问题标题】:Is it possible to run multiple aggregation jobs on a single dataframe in parallel in spark?是否可以在单个数据帧上并行运行多个聚合作业?
【发布时间】:2016-06-25 20:48:18
【问题描述】:

有没有办法在单个 RDD 上并行运行多个独立的聚合作业?首选是 Python,然后是 Scala 和 Java。

按优先顺序排列的行动过程是 -

  1. 使用线程池 - 运行不同的函数,在不同的线程上进行不同的聚合。我没有看到这样做的示例。

  2. 在 yarn 上使用集群模式,提交不同的 jar。这可能吗,如果是,那么在 pyspark 中是否可能?

  3. 使用 Kafka - 在通过 kafka 流式传输的数据帧上运行不同的 spark-submits。

我对 Spark 还很陌生,我的经验范围包括在 Yarn 上运行 Spark 以进行 ETL 串行执行多个聚合。我在考虑是否可以并行运行这些聚合,因为它们大多是独立的。

【问题讨论】:

    标签: apache-spark parallel-processing pyspark etl


    【解决方案1】:

    考虑您的广泛问题,这里有一个广泛的答案:

    是的,可以在单个 DataFrame 上并行运行多个聚合作业。

    对于其余部分,您似乎不清楚您在问什么。

    【讨论】:

    • 谢谢!你能指出如何做到这一点吗?我试图搜索相同的内容,但遇到了非常模糊的答案。很抱歉我不清楚我在问什么。
    • 对不起。我不能再详细说明了。它相当广泛。 Spark 是一个并行数据处理引擎。对于这么宽泛的问题,我无法给出具体的答案。请阅读如何在 StackOverflow 上提问,它可能会帮助您查看问题。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-12-08
    • 1970-01-01
    • 1970-01-01
    • 2022-10-13
    • 2021-08-07
    • 2016-12-24
    • 2015-08-12
    相关资源
    最近更新 更多