0x01: kafka版本的选择
研究kafka源码之前,建议可以先了解其各个版本的演进背景以及优缺点。
目前主要的几个大版本如下:
各版本介绍:
- kafka基本能用消息队列的最低版本为0.7,但0.7版本当时还没有副本机制。
- 从0.8版本开始引进了副本机制,而且对于分布式高可靠性做了非常大的升级,算是当时比较稳定的一个版本,但使用的还是老的API,而且还是需要从ZK上获取元数据信息,以及存储offset偏移量,缺点(bug)也比较多,0.8的版本其实在国内很多公司还在使用(建议起码升级到0.10+的版本)
- 0.9版本增加了安全认证/权限认证,同时使用了JAVA重写了新版本消费者API(但这块BUG还是比较多),且从0.9开始offset不再存储在zookeeper中,而是以_consumer_offsets topic保存在自身broker上(我自己就是高性能、高并发干嘛不放自己这里?)
- 0.10.0.0版本算是一个里程碑的大版本,因为里面引入的Kafka Streams(开始布局流式计算的战略目标了,虽然后面还是干不过Flink),正式升级为分布式流处理平台,从这个大版本开始Comsumer端也比较稳定了
- 后续的版本0.11,1.X,2.x
基于是对Kafka优秀代码设计的学习,我们可以选择0.10.x版本进行源码的分析与学习
目前0.10 大版本包含两个小版本:0.10.1 和 0.10.2,这里选择0.10.1
0x02: 基础环境安装
- JDK 1.8环境
- scala 2.11.x (服务端部分使用的还是scala编写的)
下载地址:
https://www.scala-lang.org/download/all.html
- idea 安装scala插件
- 安装Gradle
kafka仓库管理采用的是gradle而不是maven
下载地址: Gradle | Releases
- github下载kafka 0.10.1源码
Branches · apache/kafka · GitHub
0x03: 导入项目
选择gradle并设置Gradle环境信息
kafka编译过程问题
org.gradle.api.artifacts.ResolveException: Could not resolve all dependencies for configuration ':classpath'.
原因是Gradle版本过高问题,降低版本到4.8以下就可以解决