【问题标题】:Spark Streaming with multiple Kafka streamsSpark Streaming 与多个 Kafka 流
【发布时间】:2016-03-22 05:06:50
【问题描述】:

我使用以下代码创建 kafka 流:

val streams = (1 to 5) map {i => 
    KafkaUtils.createStream[....](
              streamingContext,
              Map( .... ),
              Map(topic -> numOfPartitions),
              StorageLevel.MEMORY_AND_DISK_SER
              ).filter(...)
              .mapPartitions(...)
              .reduceByKey(....)
val unifiedStream = streamingContext.union(streams)
unifiedStream.foreachRDD(...)
streamingContext.start()

我给每个流不同的组 id。当我运行应用程序时,只收到部分 kafka 消息,并且执行程序在 foreachRDD 调用中处于挂起状态。如果我只创建一个流,一切正常。记录信息没有任何例外。

我不知道为什么应用程序卡在那里。这是否意味着没有足够的资源?

【问题讨论】:

    标签: spark-streaming apache-kafka


    【解决方案1】:

    你想试试设置参数

    SparkConf().set("spark.streaming.concurrentJobs", "5")
    

    【讨论】:

      猜你喜欢
      • 2016-03-12
      • 2019-08-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-25
      • 2018-05-17
      • 1970-01-01
      相关资源
      最近更新 更多