一文掌握Redis的三種集群方案(小結)

Posted on 2021-02-18 by WalkonNet

在開發測試環境中，我們一般搭建Redis的單實例來應對開發測試需求，但是在生產環境，如果對可用性、可靠性要求較高，則需要引入Redis的集群方案。雖然現在各大雲平臺有提供緩存服務可以直接使用，但瞭解一下其背後的實現與原理總還是有些必要（比如面試），本文就一起來學習一下Redis的幾種集群方案。

Redis支持三種集群方案

主從復制模式
Sentinel（哨兵）模式
Cluster模式

主從復制模式

1. 基本原理

主從復制模式中包含一個主數據庫實例（master）與一個或多個從數據庫實例（slave），如下圖

客戶端可對主數據庫進行讀寫操作，對從數據庫進行讀操作，主數據庫寫入的數據會實時自動同步給從數據庫。

具體工作機制為：

slave啟動後，向master發送SYNC命令，master接收到SYNC命令後通過bgsave保存快照（即上文所介紹的RDB持久化），並使用緩沖區記錄保存快照這段時間內執行的寫命令
master將保存的快照文件發送給slave，並繼續記錄執行的寫命令
slave接收到快照文件後，加載快照文件，載入數據
master快照發送完後開始向slave發送緩沖區的寫命令，slave接收命令並執行，完成復制初始化
此後master每次執行一個寫命令都會同步發送給slave，保持master與slave之間數據的一致性

2. 部署示例

本示例基於Redis 5.0.3版。

redis.conf的主要配置

###網絡相關###
# bind 127.0.0.1 # 綁定監聽的網卡IP，註釋掉或配置成0.0.0.0可使任意IP均可訪問
protected-mode no # 關閉保護模式，使用密碼訪問
port 6379 # 設置監聽端口，建議生產環境均使用自定義端口
timeout 30 # 客戶端連接空閑多久後斷開連接，單位秒，0表示禁用

###通用配置###
daemonize yes # 在後臺運行
pidfile /var/run/redis_6379.pid # pid進程文件名
logfile /usr/local/redis/logs/redis.log # 日志文件的位置

###RDB持久化配置###
save 900 1 # 900s內至少一次寫操作則執行bgsave進行RDB持久化
save 300 10
save 60 10000 
# 如果禁用RDB持久化，可在這裡添加 save ""
rdbcompression yes #是否對RDB文件進行壓縮，建議設置為no，以（磁盤）空間換（CPU）時間
dbfilename dump.rdb # RDB文件名稱
dir /usr/local/redis/datas # RDB文件保存路徑，AOF文件也保存在這裡

###AOF配置###
appendonly yes # 默認值是no，表示不使用AOF增量持久化的方式，使用RDB全量持久化的方式
appendfsync everysec # 可選值 always， everysec，no，建議設置為everysec

###設置密碼###
requirepass 123456 # 設置復雜一點的密碼

部署主從復制模式隻需稍微調整slave的配置，在redis.conf中添加

replicaof 127.0.0.1 6379 # master的ip，port
masterauth 123456 # master的密碼
replica-serve-stale-data no # 如果slave無法與master同步，設置成slave不可讀，方便監控腳本發現問題

本示例在單臺服務器上配置master端口6379，兩個slave端口分別為7001,7002，啟動master，再啟動兩個slave

[root@dev-server-1 master-slave]# redis-server master.conf
[root@dev-server-1 master-slave]# redis-server slave1.conf
[root@dev-server-1 master-slave]# redis-server slave2.conf

進入master數據庫，寫入一個數據，再進入一個slave數據庫，立即便可訪問剛才寫入master數據庫的數據。如下所示

[root@dev-server-1 master-slave]# redis-cli 
127.0.0.1:6379> auth 123456
OK
127.0.0.1:6379> set site blog.jboost.cn
OK
127.0.0.1:6379> get site
"blog.jboost.cn"
127.0.0.1:6379> info replication
# Replication
role:master
connected_slaves:2
slave0:ip=127.0.0.1,port=7001,state=online,offset=13364738,lag=1
slave1:ip=127.0.0.1,port=7002,state=online,offset=13364738,lag=0
...
127.0.0.1:6379> exit

[root@dev-server-1 master-slave]# redis-cli -p 7001
127.0.0.1:7001> auth 123456
OK
127.0.0.1:7001> get site
"blog.jboost.cn"

執行info replication命令可以查看連接該數據庫的其它庫的信息，如上可看到有兩個slave連接到master

3. 主從復制的優缺點

優點：

master能自動將數據同步到slave，可以進行讀寫分離，分擔master的讀壓力
master、slave之間的同步是以非阻塞的方式進行的，同步期間，客戶端仍然可以提交查詢或更新請求

缺點：

不具備自動容錯與恢復功能，master或slave的宕機都可能導致客戶端請求失敗，需要等待機器重啟或手動切換客戶端IP才能恢復
master宕機，如果宕機前數據沒有同步完，則切換IP後會存在數據不一致的問題
難以支持在線擴容，Redis的容量受限於單機配置

Sentinel（哨兵）模式

1. 基本原理

哨兵模式基於主從復制模式，隻是引入瞭哨兵來監控與自動處理故障。如圖

哨兵顧名思義，就是來為Redis集群站哨的，一旦發現問題能做出相應的應對處理。其功能包括

監控master、slave是否正常運行
當master出現故障時，能自動將一個slave轉換為master（大哥掛瞭，選一個小弟上位）
多個哨兵可以監控同一個Redis，哨兵之間也會自動監控

哨兵模式的具體工作機制：

在配置文件中通過 sentinel monitor <master-name> <ip> <redis-port> <quorum> 來定位master的IP、端口，一個哨兵可以監控多個master數據庫，隻需要提供多個該配置項即可。哨兵啟動後，會與要監控的master建立兩條連接：

一條連接用來訂閱master的_sentinel_:hello頻道與獲取其他監控該master的哨兵節點信息
另一條連接定期向master發送INFO等命令獲取master本身的信息

與master建立連接後，哨兵會執行三個操作：

定期（一般10s一次，當master被標記為主觀下線時，改為1s一次）向master和slave發送INFO命令
定期向master和slave的_sentinel_:hello頻道發送自己的信息
定期（1s一次）向master、slave和其他哨兵發送PING命令

發送INFO命令可以獲取當前數據庫的相關信息從而實現新節點的自動發現。所以說哨兵隻需要配置master數據庫信息就可以自動發現其slave信息。獲取到slave信息後，哨兵也會與slave建立兩條連接執行監控。通過INFO命令，哨兵可以獲取主從數據庫的最新信息，並進行相應的操作，比如角色變更等。

接下來哨兵向主從數據庫的_sentinel_:hello頻道發送信息與同樣監控這些數據庫的哨兵共享自己的信息，發送內容為哨兵的ip端口、運行id、配置版本、master名字、master的ip端口還有master的配置版本。這些信息有以下用處：

其他哨兵可以通過該信息判斷發送者是否是新發現的哨兵，如果是的話會創建一個到該哨兵的連接用於發送PING命令。
其他哨兵通過該信息可以判斷master的版本，如果該版本高於直接記錄的版本，將會更新
當實現瞭自動發現slave和其他哨兵節點後，哨兵就可以通過定期發送PING命令定時監控這些數據庫和節點有沒有停止服務。

如果被PING的數據庫或者節點超時（通過 sentinel down-after-milliseconds master-name milliseconds 配置）未回復，哨兵認為其主觀下線（sdown，s就是Subjectively —— 主觀地）。如果下線的是master，哨兵會向其它哨兵發送命令詢問它們是否也認為該master主觀下線，如果達到一定數目（即配置文件中的quorum）投票，哨兵會認為該master已經客觀下線（odown，o就是Objectively —— 客觀地），並選舉領頭的哨兵節點對主從系統發起故障恢復。若沒有足夠的sentinel進程同意master下線，master的客觀下線狀態會被移除，若master重新向sentinel進程發送的PING命令返回有效回復，master的主觀下線狀態就會被移除

哨兵認為master客觀下線後，故障恢復的操作需要由選舉的領頭哨兵來執行，選舉采用Raft算法：

發現master下線的哨兵節點（我們稱他為A）向每個哨兵發送命令，要求對方選自己為領頭哨兵
如果目標哨兵節點沒有選過其他人，則會同意選舉A為領頭哨兵
如果有超過一半的哨兵同意選舉A為領頭，則A當選
如果有多個哨兵節點同時參選領頭，此時有可能存在一輪投票無競選者勝出，此時每個參選的節點等待一個隨機時間後再次發起參選請求，進行下一輪投票競選，直至選舉出領頭哨兵

選出領頭哨兵後，領頭者開始對系統進行故障恢復，從出現故障的master的從數據庫中挑選一個來當選新的master,選擇規則如下：

所有在線的slave中選擇優先級最高的，優先級可以通過slave-priority配置
如果有多個最高優先級的slave，則選取復制偏移量最大（即復制越完整）的當選
如果以上條件都一樣，選取id最小的slave

挑選出需要繼任的slave後，領頭哨兵向該數據庫發送命令使其升格為master，然後再向其他slave發送命令接受新的master，最後更新數據。將已經停止的舊的master更新為新的master的從數據庫，使其恢復服務後以slave的身份繼續運行。

2. 部署演示

本示例基於Redis 5.0.3版。

哨兵模式基於前文的主從復制模式。哨兵的配置文件為sentinel.conf，在文件中添加

sentinel monitor mymaster 127.0.0.1 6379 1 # mymaster定義一個master數據庫的名稱，後面是master的ip， port，1表示至少需要一個Sentinel進程同意才能將master判斷為失效，如果不滿足這個條件，則自動故障轉移（failover）不會執行
sentinel auth-pass mymaster 123456 # master的密碼

sentinel down-after-milliseconds mymaster 5000 # 5s未回復PING，則認為master主觀下線，默認為30s
sentinel parallel-syncs mymaster 2 # 指定在執行故障轉移時，最多可以有多少個slave實例在同步新的master實例，在slave實例較多的情況下這個數字越小，同步的時間越長，完成故障轉移所需的時間就越長
sentinel failover-timeout mymaster 300000 # 如果在該時間（ms）內未能完成故障轉移操作，則認為故障轉移失敗，生產環境需要根據數據量設置該值

一個哨兵可以監控多個master數據庫，隻需按上述配置添加多套

分別以26379,36379,46379端口啟動三個sentinel

[root@dev-server-1 sentinel]# redis-server sentinel1.conf --sentinel
[root@dev-server-1 sentinel]# redis-server sentinel2.conf --sentinel
[root@dev-server-1 sentinel]# redis-server sentinel3.conf --sentinel

也可以使用redis-sentinel sentinel1.conf 命令啟動。此時集群包含一個master、兩個slave、三個sentinel，如圖，

我們來模擬master掛掉的場景，執行 kill -9 3017 將master進程幹掉，進入slave中執行 info replication查看，

[root@dev-server-1 sentinel]# redis-cli -p 7001
127.0.0.1:7001> auth 123456
OK
127.0.0.1:7001> info replication
# Replication
role:slave
master_host:127.0.0.1
master_port:7002
master_link_status:up
master_last_io_seconds_ago:1
master_sync_in_progress:0
# 省略
127.0.0.1:7001> exit
[root@dev-server-1 sentinel]# redis-cli -p 7002
127.0.0.1:7002> auth 123456
OK
127.0.0.1:7002> info replication
# Replication
role:master
connected_slaves:1
slave0:ip=127.0.0.1,port=7001,state=online,offset=13642721,lag=1
# 省略

可以看到slave 7002已經成功上位晉升為master（role：master），接收一個slave 7001的連接。此時查看slave2.conf配置文件，發現replicaof的配置已經被移除瞭，slave1.conf的配置文件裡replicaof 127.0.0.1 6379 被改為 replicaof 127.0.0.1 7002。重新啟動master，也可以看到master.conf配置文件中添加瞭replicaof 127.0.0.1 7002的配置項，可見大哥（master）下位後，再出來混就隻能當當小弟（slave）瞭，三十年河東三十年河西。

3. 哨兵模式的優缺點

優點：

哨兵模式基於主從復制模式，所以主從復制模式有的優點，哨兵模式也有
哨兵模式下，master掛掉可以自動進行切換，系統可用性更高

缺點：

同樣也繼承瞭主從模式難以在線擴容的缺點，Redis的容量受限於單機配置
需要額外的資源來啟動sentinel進程，實現相對復雜一點，同時slave節點作為備份節點不提供服務

Cluster模式

1. 基本原理

哨兵模式解決瞭主從復制不能自動故障轉移，達不到高可用的問題，但還是存在難以在線擴容，Redis容量受限於單機配置的問題。Cluster模式實現瞭Redis的分佈式存儲，即每臺節點存儲不同的內容，來解決在線擴容的問題。如圖

Cluster采用無中心結構,它的特點如下：

所有的redis節點彼此互聯(PING-PONG機制),內部使用二進制協議優化傳輸速度和帶寬
節點的fail是通過集群中超過半數的節點檢測失效時才生效
客戶端與redis節點直連,不需要中間代理層.客戶端不需要連接集群所有節點,連接集群中任何一個可用節點即可

Cluster模式的具體工作機制：

在Redis的每個節點上，都有一個插槽（slot），取值范圍為0-16383
當我們存取key的時候，Redis會根據CRC16的算法得出一個結果，然後把結果對16384求餘數，這樣每個key都會對應一個編號在0-16383之間的哈希槽，通過這個值，去找到對應的插槽所對應的節點，然後直接自動跳轉到這個對應的節點上進行存取操作
為瞭保證高可用，Cluster模式也引入主從復制模式，一個主節點對應一個或者多個從節點，當主節點宕機的時候，就會啟用從節點
當其它主節點ping一個主節點A時，如果半數以上的主節點與A通信超時，那麼認為主節點A宕機瞭。如果主節點A和它的從節點都宕機瞭，那麼該集群就無法再提供服務瞭

Cluster模式集群節點最小配置6個節點(3主3從，因為需要半數以上)，其中主節點提供讀寫操作，從節點作為備用節點，不提供請求，隻作為故障轉移使用。

2. 部署演示

本示例基於Redis 5.0.3版。

Cluster模式的部署比較簡單，首先在redis.conf中

port 7100 # 本示例6個節點端口分別為7100,7200,7300,7400,7500,7600 
daemonize yes # r後臺運行 
pidfile /var/run/redis_7100.pid # pidfile文件對應7100,7200,7300,7400,7500,7600 
cluster-enabled yes # 開啟集群模式 
masterauth passw0rd # 如果設置瞭密碼，需要指定master密碼
cluster-config-file nodes_7100.conf # 集群的配置文件，同樣對應7100,7200等六個節點
cluster-node-timeout 15000 # 請求超時 默認15秒，可自行設置

分別以端口7100,7200,7300,7400,7500,7600 啟動六個實例(如果是每個服務器一個實例則配置可一樣)

[root@dev-server-1 cluster]# redis-server redis_7100.conf
[root@dev-server-1 cluster]# redis-server redis_7200.conf
...

然後通過命令將這個6個實例組成一個3主節點3從節點的集群，

redis-cli --cluster create --cluster-replicas 1 127.0.0.1:7100 127.0.0.1:7200 127.0.0.1:7300 127.0.0.1:7400 127.0.0.1:7500 127.0.0.1:7600 -a passw0rd

執行結果如圖

可以看到 7100， 7200， 7300 作為3個主節點，分配的slot分別為 0-5460， 5461-10922， 10923-16383， 7600作為7100的slave， 7500作為7300的slave，7400作為7200的slave。

我們連接7100設置一個值

[root@dev-server-1 cluster]# redis-cli -p 7100 -c -a passw0rd
Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
127.0.0.1:7100> set site blog.jboost.cn
-> Redirected to slot [9421] located at 127.0.0.1:7200
OK
127.0.0.1:7200> get site
"blog.jboost.cn"
127.0.0.1:7200>

註意添加 -c 參數表示以集群模式，否則報 (error) MOVED 9421 127.0.0.1:7200 錯誤，以 -a 參數指定密碼，否則報(error) NOAUTH Authentication required錯誤。

從上面命令看到key為site算出的slot為9421，落在7200節點上，所以有Redirected to slot [9421] located at 127.0.0.1:7200，集群會自動進行跳轉。因此客戶端可以連接任何一個節點來進行數據的存取。

通過cluster nodes可查看集群的節點信息

127.0.0.1:7200> cluster nodes
eb28aaf090ed1b6b05033335e3d90a202b422d6c 127.0.0.1:7500@17500 slave c1047de2a1b5d5fa4666d554376ca8960895a955 0 1584165266071 5 connected
4cc0463878ae00e5dcf0b36c4345182e021932bc 127.0.0.1:7400@17400 slave 5544aa5ff20f14c4c3665476de6e537d76316b4a 0 1584165267074 4 connected
dbbb6420d64db22f35a9b6fa460b0878c172a2fb 127.0.0.1:7100@17100 master - 0 1584165266000 1 connected 0-5460
d4b434f5829e73e7e779147e905eea6247ffa5a2 127.0.0.1:7600@17600 slave dbbb6420d64db22f35a9b6fa460b0878c172a2fb 0 1584165265000 6 connected
5544aa5ff20f14c4c3665476de6e537d76316b4a 127.0.0.1:7200@17200 myself,master - 0 1584165267000 2 connected 5461-10922
c1047de2a1b5d5fa4666d554376ca8960895a955 127.0.0.1:7300@17300 master - 0 1584165268076 3 connected 10923-16383

我們將7200通過 kill -9 pid殺死進程來驗證集群的高可用，重新進入集群執行cluster nodes可以看到7200 fail瞭，但是7400成瞭master，重新啟動7200，可以看到此時7200已經變成瞭slave。

3. Cluster模式的優缺點

優點：

無中心架構，數據按照slot分佈在多個節點。
集群中的每個節點都是平等的關系，每個節點都保存各自的數據和整個集群的狀態。每個節點都和其他所有節點連接，而且這些連接保持活躍，這樣就保證瞭我們隻需要連接集群中的任意一個節點，就可以獲取到其他節點的數據。
可線性擴展到1000多個節點，節點可動態添加或刪除
能夠實現自動故障轉移，節點之間通過gossip協議交換狀態信息，用投票機制完成slave到master的角色轉換

缺點：

客戶端實現復雜，驅動要求實現Smart Client，緩存slots mapping信息並及時更新，提高瞭開發難度。目前僅JedisCluster相對成熟，異常處理還不完善，比如常見的“max redirect exception”
節點會因為某些原因發生阻塞（阻塞時間大於 cluster-node-timeout）被判斷下線，這種failover是沒有必要的
數據通過異步復制，不保證數據的強一致性
slave充當“冷備”，不能緩解讀壓力
批量操作限制，目前隻支持具有相同slot值的key執行批量操作，對mset、mget、sunion等操作支持不友好
key事務操作支持有線，隻支持多key在同一節點的事務操作，多key分佈不同節點時無法使用事務功能
不支持多數據庫空間，單機redis可以支持16個db，集群模式下隻能使用一個，即db 0

Redis Cluster模式不建議使用pipeline和multi-keys操作，減少max redirect產生的場景。

總結

本文介紹瞭Redis集群方案的三種模式，其中主從復制模式能實現讀寫分離，但是不能自動故障轉移；哨兵模式基於主從復制模式，能實現自動故障轉移，達到高可用，但與主從復制模式一樣，不能在線擴容，容量受限於單機的配置；Cluster模式通過無中心化架構，實現分佈式存儲，可進行線性擴展，也能高可用，但對於像批量操作、事務操作等的支持性不夠好。三種模式各有優缺點，可根據實際場景進行選擇。

參考：

https://blog.csdn.net/q649381130/article/details/79931791

https://www.cnblogs.com/51life/p/10233340.html

https://www.cnblogs.com/chensuqian/p/10538365.html

https://stor.51cto.com/art/201910/604653.htm

到此這篇關於一文掌握Redis的三種集群方案(小結)的文章就介紹到這瞭,更多相關Redis 集群內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

一文掌握Redis的三種集群方案(小結)

主從復制模式

1. 基本原理

2. 部署示例

3. 主從復制的優缺點

Sentinel（哨兵）模式

1. 基本原理

2. 部署演示

3. 哨兵模式的優缺點

Cluster模式

1. 基本原理

2. 部署演示

3. Cluster模式的優缺點

總結

參考：

推薦閱讀：

發佈留言取消回覆

近期文章

主從復制模式

1. 基本原理

2. 部署示例

3. 主從復制的優缺點

Sentinel（哨兵）模式

1. 基本原理

2. 部署演示

3. 哨兵模式的優缺點

Cluster模式

1. 基本原理

2. 部署演示

3. Cluster模式的優缺點

總結

參考：

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆