大数据处理技术-ZooKeeper的介绍

Overview

ZooKeeper 概述

Zookeeper 是一个分布式协调服务的开源框架。

主要用来解决分布式集群中应用系统的一致性问题，例如怎样避免同时操作同一数据造成脏读的问题。
ZooKeeper 本质上是一个分布式的小文件存储系统。提供基于类似于文件系统的目录树方式的数据存储，并且可以对树中的节点进行有效管理。
从而用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化，从而可以达到基于数据的集群管理。
诸如：统一命名服务 (dubbo)、分布式配置管理 (solr 的配置集中管理)、分布式消息队列（sub/pub）、分布式锁、分布式协调等功能。

Zookeeper 的架构

Leader

Zookeeper 集群工作的核心

事务请求（写操作）的唯一调度和处理者，保证集群事务处理的顺序性；
集群内部各个服务器的调度者。
对于 create， setData， delete 等有写操作的请求，则需要统一转发给 leader 处理， leader 需要决定编号、执行操作，这个过程称为一个事务。

Follower

处理客户端非事务（读操作）请求，转发事务请求给 Leader；
参与集群 Leader 选举投票 2n-1 台可以做集群投票。
此外，针对访问量比较大的 zookeeper 集群，还可新增观察者角色。

Observer

观察者角色，观察 Zookeeper 集群的最新状态变化并将这些状态同步过来，其对于非事务请求可以进行独立处理，对于事务请求，则会转发给 Leader 服务器进行处理。
不会参与任何形式的投票只提供非事务服务，通常用于在不影响集群事务处理能力的前提下提升集群的非事务处理能力。
扯淡：说白了就是增加并发的读请求

Zookeeper 的特性

全局数据一致

每个 server 保存一份相同的数据副本， client 无论连接到哪个 server，展示的数据都是一致的，这是最重要的特征；

可靠性

如果消息被其中一台服务器接受，那么将被所有的服务器接受。

顺序性

包括全局有序和偏序两种：全局有序是指如果在一台服务器上消息 a 在消息 b 前发布，则在所有 Server 上消息 a 都将在消息 b 前被发布；偏序是指如果一个消息 b 在消息 a 后被同一个发送者发布， a 必将排在 b 前面。

数据更新原子性

一次数据更新要么成功（半数以上节点成功），要么失败，不存在中间状态；

实时性

Zookeeper 保证客户端将在一个时间间隔范围内获得服务器的更新信息，或者服务器失效的信息。

Zookeeper 的集群环境

为什么搭建 zookeeper 集群

1. 集群有高可用的能力。
1. 高并发的情况下，单机版性能低下

Zookeeper 选举策略

Zookeeper 集群搭建指的是 ZooKeeper 分布式模式安装。通常由 2n+1 台 servers 组成。这是因为为了保证 Leader 选举（基于 Paxos 算法的实现）能过得到多数的支持，所以 ZooKeeper 集群的数量一般为奇数。
Zookeeper 运行需要 java 环境，所以需要提前安装 jdk。对于安装 leader+follower 模式的集群，大致过程如下：