【发布时间】:2016-04-07 19:46:44
【问题描述】:
我正在决定是否使用 Spark-Streaming Kafka 集成。
我有一个 Kafka 主题(我可以将其分解为几个主题),每分钟排队几十万条消息,我的 spark 流应用程序通过应用转换来摄取消息,然后更新 UI。
知道所有故障都得到处理并在 Kafka 中复制数据,实现 Spark Streaming 应用程序以实现最佳性能和稳健性的最佳选择是什么:
- 一个 Kafka 主题和一个 Spark 集群。
- 几个 Kafka 主题和几个独立的 Spark 盒子(一台机器,每个主题都有独立的 Spark 集群)
- 几个 Kafka 主题和一个 Spark 集群。
我很想选择第二个选项,但我找不到人们谈论这样的解决方案。
【问题讨论】:
标签: apache-spark apache-kafka spark-streaming