【发布时间】:2018-05-03 22:17:56
【问题描述】:
场景-我有 1 个主题,2 个分区,不同的数据集集合说 A,B。我知道 dstream 可以在分区级别和主题级别使用消息。 查询 - 我们可以为每个分区使用两个不同的流上下文,还是为整个主题使用一个流上下文,然后过滤分区级别的数据?我担心增加流上下文的数量时的性能。
【问题讨论】:
-
AFAIK,你不能拥有多个 Spark 上下文
-
如果您使用的是 Spark Streaming(接收器较少)。它应该处理这个。
-
因为您将收到每个 Kafka 分区作为单独的 RDD 分区,所以没有什么可担心的。 Spark 处理得很好。您需要做的就是为每个分区编写适当的逻辑(基于您拥有的每种类型的一些标识符)。
-
如果我必须在 spark 中为每个分区执行不同的逻辑,有什么方法可以在不实际使用过滤器的情况下选择特定的分区 A?
标签: apache-spark apache-kafka spark-streaming