【问题标题】:Structured Streaming Job not using all workers结构化流式作业不使用所有工作人员
【发布时间】:2017-04-20 03:13:11
【问题描述】:

我有一个 Spark 2.0.2 结构化流作业连接到 Apache Kafka 数据流作为源。这项工作从 Kafka 中获取 Twitter 数据 (JSON),并使用 CoreNLP 对数据进行注释,例如情绪、词性标记等。它与 local[*] 大师配合得很好。但是,当我设置一个独立的 Spark 集群时,只有一个工作人员习惯于处理数据。我有两个具有相同能力的工人。

在提交我缺少的工作时,我需要设置什么。我尝试在我的spark-submit 命令中设置--num-executors,但我没有运气。

提前感谢您指向正确方向的指针。

【问题讨论】:

标签: apache-spark apache-spark-2.0 spark-structured-streaming


【解决方案1】:

我最终创建了具有更多分区的 kafka 源流。这似乎将处理部分加快了 9 倍。 Spark 和 kafka 有很多旋钮。有很多东西要筛选...见Kafka topic partitions to Spark streaming

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-10-07
    • 2021-08-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-01-04
    • 2015-11-23
    • 1970-01-01
    相关资源
    最近更新 更多