【发布时间】:2016-06-25 20:48:18
【问题描述】:
有没有办法在单个 RDD 上并行运行多个独立的聚合作业?首选是 Python,然后是 Scala 和 Java。
按优先顺序排列的行动过程是 -
使用线程池 - 运行不同的函数,在不同的线程上进行不同的聚合。我没有看到这样做的示例。
在 yarn 上使用集群模式,提交不同的 jar。这可能吗,如果是,那么在 pyspark 中是否可能?
使用 Kafka - 在通过 kafka 流式传输的数据帧上运行不同的 spark-submits。
我对 Spark 还很陌生,我的经验范围包括在 Yarn 上运行 Spark 以进行 ETL 串行执行多个聚合。我在考虑是否可以并行运行这些聚合,因为它们大多是独立的。
【问题讨论】:
标签: apache-spark parallel-processing pyspark etl