kafka学习笔记（二）-CFANZ编程社区

一、基本概念

kafka中每条记录包含一个key，一个value和一个时间戳。

Topics

每个Topic，kafka都会维持一个分区日志，每个分区都是有序且不可变的记录集，分区中的每一个记录都有对应的id表示顺序，kafka中称之为offset。用于唯一的标识分区中的每一条记录。

kafka中增加或者减少消费者对已经存在的消费者消费数据是没有影响的，因为每一个消费者中唯一保存的元数据是offset。

分区

kafka中，每个分区都有一台server作为leader，其他为follwers，leader处理对分区的读写，follwers被动的从leader上同步数据。
每个分区内的记录是有序的，但并不保证主体中不同分区的顺序

消费者

一个消费者组是一个逻辑订阅者
1、如果所有的消费者实例在同一消费组中，消息记录会负载平衡到每一个消费者实例.
2、如果所有的消费者实例在不同的消费组中，每条消息记录会广播到所有的消费者进程.
3、kafka会将topic中的partion划分到每一个消费者实例上，确保每个实例都是分区唯一的消费者，有新的实例加入组或者有实例离开组时，都会动态的接管一些partion。

kafka消费者正是基于以上特点，和传统的消息系统不同，kafka同时具备队列和发布-订阅的特性，同一个消费者组中，消费者实例处理消息记录后消息即被丢弃（offset偏移），这是kafka的队列特性，同时，消息可以广播分发给不同消费者组，这是kafka的发布-订阅特性。

kafka相比传统消息系统具备更严格的顺序保证

如下图所示，传统消息系统中，虽然服务器顺序的存储消息并顺序输出，但是消息异步到达消费者，因此在并行消费的情况下，无法保证消息的顺序性。

kafka中，每个partion由一个消费者组中的一个消费者所消费，该消费者即为分区的唯一读者，并按顺序消费数据，因此可以保证消息的顺序性。但是消费者组中的消费者实例个数不能超过分区的数量。

如果某主题对顺序有强一致性，可以通过kafka的该特性将该主题的数据写入到指定的partion中（我们可通过props.put("partitioner.class","***")指定分区策略），可以通过实现Partitioner接口来自定义我们的分区策略，如果是spring-cloud-stream，可通过下面方式指定分区策略，具体可参考spring-cloud-stream官网说明

@InboundChannelAdapter(channel = Source.OUTPUT, poller = @Poller(fixedRate = "5000"))
    public Message<?> generate() {
        String value = data[RANDOM.nextInt(data.length)];
        System.out.println("Sending: " + value);
        return MessageBuilder.withPayload(value)
                .setHeader("partitionKey", value)
                .build();

kafka集群的扩展

只需要分配新的brokerID并启动就可以加入到集群，但是新加入的broker是不会被分配任何数据分区，直到有新的topic创建。但是可以使用kafka-reassign-partitions.sh工具来重新分配partition

二、kafka的高可靠性

2.1 kafka的存储结构

一个topic可以分为多个partition，而一个partition又可分为多个segment（数据段）。第一个segment命名从0开始，后面每个segment名称为上一个segment最后一条消息的offset。

而每个segment由.index和.log和.timeindex文件组成

index存储元数据，log存储消息, timeindex是kafka的时间日志。元数据指向log文件中message的偏移地址。对应关系如下图所示

2.2 副本同步机制

kafka每个partition都有一个leader和若干个follower, leader对外提供读写能力，follower会不断的向leader发送请求尝试拉取数据，拉取到的数据会写入到本地磁盘。关于副本的同步机制在之前一篇中已经介绍过。https://www.jianshu.com/p/d6bae5407d7f

2.3 kafka零拷贝机制

传统的四次拷贝机制

1、操作系统将数据从磁盘文件读取到内核空间
2、应用从内核空间读入到用户空间
3、应用程序将数据写入到内核空间，放入到socket缓冲区
4、操作系统将数据从socket缓冲区复制到网卡接口
四次拷贝伴随这四次上下文的切换

kafka零拷贝机制

kafka则借助操作系统的sendfile，直接将数据从一个fd传输到另一个fd.
1、网卡直接访问系统主内存，解放了CPU
2、不在需要内核态到用户态的文件拷贝和上线文切换

2.4 kafka的三种消费模式

1、At most once 最多一次

第一步如果先提交offset，第二步再处理消息。如果②之前consumer宕机，则消息4不会被处理，这样就造成消息的丢失。

2、At least once 最少一次

第一步如果先处理消息4，第二步再提交offset。如果②之前consumer宕机，则消息4下次会继续消费，这样就造成重复消费。

3、Exactly once 精确一次

1、依赖业务来实现
即关闭offset自动提交，可以将offset作为关系型数据库的唯一索引，并将①和②放到一个事务中处理。消息处理成功同时提交offset的请求发送成功，提交事务。如果重复处理消息时，在数据库中有相同offset记录则不处理。

2、依赖kafka实现
当从一个 kafka topic 中消费并输出到另一个 topic 时 (正如在一个Kafka Streams 应用中所做的那样)，我们可以使用 0.11.0.0 版本中的新事务型 producer，并将 consumer 的位置存储为一个 topic 中的消息，所以我们可以在输出 topic 接收已经被处理的数据的时候，在同一个事务中向 Kafka 写入 offset。如果事务被中断，则消费者的位置将恢复到原来的值，而输出 topic 上产生的数据对其他消费者是否可见，取决于事务的“隔离级别”。在默认的“read_uncommitted”隔离级别中，所有消息对 consumer 都是可见的，即使它们是中止的事务的一部分，但是在“read_committed”的隔离级别中，消费者只能访问已提交的事务中的消息