Kafka框架 - 爱码网

Kafka ：高吞吐，分布式，基于发布订阅的信息系统
点对点模式 ：一对一，消费者主动拉取数据
发布订阅模式：一对多，数据生产后，推送给所以订阅者

Kafka框架

Producer ：消息生产者，想kafka broker发消息的客户端
Consumer ：消息消费者，向kafk broker取消息的客户端
Topic ：可以理解为一个队列
Consumer Group：这是用来实现一个消息的广播和单播
Broker ：一台kafka服务器就是一个broker 一个集群由多个broker组成，一个broker可以容纳多个topic
分区的原因
（1）方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个
Partition组成，因此整个集群就可以适应任意大小的数据了；
（2）可以提高并发，因为可以以Partition为单位读写了。
分区的原则
（1）指定了patition，则直接使用；
（2）未指定patition但指定key，通过对key的value进行hash出一个patition
（3）patition和key都未指定，使用轮询选出一个patition

kafka 的写流程
1）producer先从zookeeper的 "/brokers/…/state"节点找到该partition的leader
2）producer将消息发送给该leader
3）leader将消息写入本地log
4）followers从leader pull消息，写入本地log后向leader发送ACK
5）leader收到所有ISR中的replication的ACK后，增加HW（high watermark，最后commit 的offset）
并向producer发送ACK