【发布时间】:2019-07-27 16:48:15
【问题描述】:
我们正在从设备(Android、iOS)收集流数据。数据流为,websocket -> logstash -> kafka -> spark -> cassandra。内存为 16 GB。我们的应用程序基于 OTT 平台,当视频流式传输时,它会将事件发送到 kafka 以进行分析。目前的情况是,并行播放 4 或 5 个视频时,内存会很快溢出。
可能是什么问题?是不是配置错误?对于我们的要求,还有其他更好的方法吗?
【问题讨论】:
-
你在一台 16GB 的机器上运行这一切?
-
是的。最初我们使用单个 16 GB,后来升级到 32 GB AWS
-
所以Kafka、Spark、Cassandra等都是分布式系统。您可以扩展它们以获得弹性(我希望您已经在考虑!),还可以根据需要扩展性能/吞吐量。
-
我们现在在不同的服务器上运行 kafka 和 spark 流。所以kafka现在稳定了。我的疑问是,我是否遵循正确的架构?使用此架构,我的系统能否一次处理超过 10,000 个用户活动?
标签: apache-spark memory-management cassandra apache-kafka