zookeeper,很多人称他为动物园管理员,其实挺贴切,也有些笼统。
我们平时看到的zookeeper一般是以集群出现在大家的视线中,很少用single zookeeper。
整体架构
zookeeper集群中,主要有三个角色:leader、follower、Observer
leader:接受所有follower的提案请求并统一发起提案的投票负责与所有的follower进行内部数据同步
Follower:直接为客户端服务并参与提案的投票,同时与leader进行数据的交换
Observer:直接为客户端服务但并不参与投票,同时也与leader进行数据同步
工作原理
Zookeeper的核心是原子广播,这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式,它们分别是恢复模式(选主)和广播模式(同步)。当服务启动或者在领导者崩溃后,Zab就进入了恢复模式,当领导者被选举出来,且大多数Server完成了和leader的状态同步以后,恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。
为了保证事务的顺序一致性,zookeeper采用了递增的事务id号(zxid)来标识事务。所有的提议(proposal)都在被提出的时候加上了zxid。实现中zxid是一个64位的数字,它高32位是epoch用来标识leader关系是否改变,每次一个leader被选出来,它都会有一个新的epoch,标识当前属于那个leader的统治时期。低32位用于递增计数,用于确定叶子节点的版本号
每个Server在工作过程中有三种状态:
• LOOKING:当前Server不知道leader是谁,正在搜寻
• LEADING:当前Server即为选举出来的leader
• FOLLOWING:leader已经选举出来,当前Server与之同步
选主流程
为什么要选主?
选主流程
选举线程由当前Server发起选举的线程担任
网上的资料有使用纯文字进行算法描述的,也有使用流程图进行算法描述的,但是如果读者不仔细看,还是容易昏头转向,这里我们使用一张过程图和文字相结合的方式对FastLeaderELection选举算法进行描述。实际上FastLeaderELection说的中心思想无外乎以下几个关键点:
全天下我最牛,在我没有发现比我牛的推荐人的情况下,我就一直推举我当leader。第一次投票那必须推举我自己当leader。
每当我接收到其它的被推举者,我都要回馈一个信息,表明我还是不是推举我自己。如果被推举者没我大,我就一直推举我当leader,是我是我还是我!
我有一个票箱, 和我属于同一轮的投票情况都在这个票箱里面。一人一票 重复的或者过期的票,我都不接受。
一旦我不再推举我自己了(这时我发现别人推举的人比我推荐的更牛),我就把我的票箱清空,重新发起一轮投票(这时我的票箱一定有两票了,都是选的我认为最牛的人)。
一旦我发现收到的推举信息中投票轮要高于我的投票轮,我也要清空我的票箱。并且还是投当初我觉得最牛的那个人(除非当前的人比我最初的推荐牛,我就顺带更新我的推荐)。
不断的重复上面的过程,不断的告诉别人“我的投票是第几轮”、“我推举的人是谁”。直到我的票箱中“我推举的最牛的人”收到了不少于 N /2 + 1的推举投票。
这时我就可以决定我是flower还是leader了(如果至始至终都是我最牛,那我就是leader咯,其它情况就是follower咯)。并且不论随后收到谁的投票,都向它直接反馈“我的结果”。
应用场景
分布式Barrier
在分布式里实现Barrer需要高一致性做保障,因此 ZooKeeper可以派上用场,所采取的方案就是用一个Node作为Barrer的实体,需要被Barrer的任务通过调用exists()检测这个Node的存在,当需要打开Barrier的时候,删掉这个Node,ZooKeeper的watch机制会通知到各个任务可以开始执行。
分布式 Queue
分布式lock
ock操作过程:
• 首先为一个lock场景,在zookeeper中指定对应的一个根节点,用于记录资源竞争的内容
• 每个lock创建后,会lazy在zookeeper中创建一个node节点,表明对应的资源竞争标识。 (小技巧:node节点为EPHEMERAL_SEQUENTIAL,自增长的临时节点)
• 进行lock操作时,获取对应lock根节点下的所有字节点,也即处于竞争中的资源标识
• 按照Fair竞争的原则,按照对应的自增内容做排序,取出编号最小的一个节点做为lock的owner,判断自己的节点id是否就为owner id,如果是则返回,lock成功。
• 如果自己非owner id,按照排序的结果找到序号比自己前一位的id,关注它锁释放的操作(也就是exist watcher),形成一个链式的触发过程。