【发布时间】:2018-08-28 03:45:42
【问题描述】:
我正在尝试使用 Spark Streaming Direct 方法从 Kafka(1 个主题,5 个分区)读取数据。为了增加处理数据的并行度,我设置了Dstream.repartition(60)。但是,每批流的每个阶段似乎只有 5 个执行器在运行?
我已经设置了这些参数:
--num-executors 20
--executor-cores 4
--executor-memory 3G
--driver-memory 3G
--spark.default.Parallelism 60
我的困惑是:
我想减少处理时间,所以我尝试增加Vcores的数量,但是这种方法似乎不起作用。为什么?谢谢。
【问题讨论】:
标签: apache-spark apache-kafka spark-streaming