【发布时间】:2016-08-30 07:17:19
【问题描述】:
用例
使用 Apache Storm 将 Kafka 消息持久化到 S3
到目前为止的故事
- 我尝试使用 secor(https://github.com/pinterest/secor),效果很好,达到了目的。但是,对于经理来说,这可能是一种过度维护(他们说他永远是对的)
- 我们已经拥有 Apache Kafka-Apache Storm 稳定集群,因此计划利用该基础设施。
议程和问题
来自 Kafka 的消息将在 Storm bolt 中进行批处理,并以文件的形式写入本地磁盘
经过一定的时间间隔和/或大小标准后,它将上传到 S3
为了管理故障,每个 Bolt 都应该能够跟踪 Kafka 分区并在理想情况下按元组偏移,因为 Bolt 将随机分布在集群中。
Partition / Offsets 可以持久化到 Zookeeper,但首先如何从 Tuple 中获取它们?除了将它们转发到 Kafka Spout 之外还有其他方法吗?
【问题讨论】:
标签: amazon-s3 apache-kafka offset apache-storm batching