【发布时间】:2014-07-08 08:12:26
【问题描述】:
我想使用 Storm 集群实时监控用户活动。目前,用户活动日志保存在 MySQL 中。每分钟大约有 100,000 条记录记录到 MySQL 中,每天有 20,000,000 条记录。我想每 N 分钟做一个 topN 查看项目排名。如何为此设计喷口?我应该在 spout 中直接从 MySQL 查询还是使用像 Kafka 这样的消息队列?我想要实时性能,所以更喜欢第一种方式。但我发现很少有生产实现选择这种方式。为什么?
【问题讨论】:
-
我会把它们写入kafka,然后被storm消耗掉,如果需要的话,在storm bolt中写入mysql。
-
如何拖尾mysql日志并将其保存到消息队列,然后让storm从这个队列中消费消息并处理它们
标签: mysql database hadoop real-time apache-storm