日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

Redis 复制、Sentinel的搭建和原理说明

發(fā)布時間:2023/12/10 数据库 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Redis 复制、Sentinel的搭建和原理说明 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Redis 復(fù)制、Sentinel的搭建和原理說明

轉(zhuǎn)自:Redis 復(fù)制、Sentinel的搭建和原理說明

背景:

Redis-Sentinel是Redis官方推薦的高可用性(HA)解決方案,當(dāng)用Redis做Master-slave的高可用方案時,假如master宕機(jī)了,Redis本身(包括它的很多客戶端)都沒有實現(xiàn)自動進(jìn)行主備切換,而Redis-sentinel本身也是一個獨立運行的進(jìn)程,它能監(jiān)控多個master-slave集群,發(fā)現(xiàn)master宕機(jī)后能進(jìn)行自動切換,更多的信息見前一篇說明。它的主要功能有以下幾點:

  • 不時地監(jiān)控redis是否按照預(yù)期良好地運行;
  • 如果發(fā)現(xiàn)某個redis節(jié)點運行出現(xiàn)狀況,能夠通知另外一個進(jìn)程(例如它的客戶端);
  • 能夠進(jìn)行自動切換。當(dāng)一個master節(jié)點不可用時,能夠選舉出master的多個slave(如果有超過一個slave的話)中的一個來作為新的master,其它的slave節(jié)點會將它所追隨的master的地址改為被提升為master的slave的新地址。
  • Redis-Replication

    1)搭建

    復(fù)制的配置很簡單,就一個參數(shù):

    slaveof <主數(shù)據(jù)庫IP> <端口>

    可以添加在配置文件里,也可以在命令行中執(zhí)行。如主數(shù)據(jù)庫IP是192.168.200.25 端口是6379:(配置多臺從數(shù)據(jù)庫的方法也一樣)

    slaveof 192.168.200.25 6379

    注意:通過命令行進(jìn)行的復(fù)制,在主從斷開或則主從重啟之后復(fù)制信息會丟失,即不能保證持久復(fù)制,需要再次執(zhí)行slaveof。但是在配置文件里寫死slaveof不會有該問題。默認(rèn)情況下從庫是只讀的,不能進(jìn)行修改,需要修改需要設(shè)置配置文件中的slave-read-only為no。在命令行里執(zhí)行slaveof no one可以讓一個從庫變成主庫。

    2)原理

    執(zhí)行步驟:

  • 從數(shù)據(jù)庫向主數(shù)據(jù)庫發(fā)送sync命令。

  • 主數(shù)據(jù)庫接收sync命令后,執(zhí)行BGSAVE命令(保存快照),創(chuàng)建一個RDB文件,在創(chuàng)建RDB文件期間的命令將保存在緩沖區(qū)中。

  • 當(dāng)主數(shù)據(jù)庫執(zhí)行完BGSAVE時,會向從數(shù)據(jù)庫發(fā)送RDB文件,而從數(shù)據(jù)庫會接收并載入該文件。

  • 主數(shù)據(jù)庫將緩沖區(qū)的所有寫命令發(fā)給從服務(wù)器執(zhí)行。

  • 以上處理完之后,之后主數(shù)據(jù)庫每執(zhí)行一個寫命令,都會將被執(zhí)行的寫命令發(fā)送給從數(shù)據(jù)庫。

  • 注意:在Redis2.8之前,主從斷線或則重啟之后再重連接,都需要做一次完整的sync操作(5步驟),即使斷線期間只有幾條的更新操作或則是沒有操作,導(dǎo)致系統(tǒng)資源極度浪費。Redis2.8之后,會用一個psync來替換sync,不會進(jìn)行完成的sync操作,只需要同步斷線期間的記錄。相關(guān)參數(shù):repl-backlog-size、repl-backlog-ttl

    大致的示意圖如下:

    3)相關(guān)的參數(shù),注釋掉的參數(shù)都是使用默認(rèn)值。

    ################################# REPLICATION ################################# #復(fù)制選項,slave復(fù)制對應(yīng)的master。 # slaveof <masterip> <masterport>#如果master設(shè)置了requirepass,那么slave要連上master,需要有master的密碼才行。masterauth就是用來配置master的密碼,這樣可以在連上master后進(jìn)行認(rèn)證。 # masterauth <master-password>#當(dāng)從庫同主機(jī)失去連接或者復(fù)制正在進(jìn)行,從機(jī)庫有兩種運行方式:1) 如果slave-serve-stale-data設(shè)置為yes(默認(rèn)設(shè)置),從庫會繼續(xù)響應(yīng)客戶端的請求。2) 如果slave-serve-stale-data設(shè)置為no,除去INFO和SLAVOF命令之外的任何請求都會返回一個錯誤”SYNC with master in progress”。 slave-serve-stale-data yes#作為從服務(wù)器,默認(rèn)情況下是只讀的(yes),可以修改成NO,用于寫(不建議)。 slave-read-only yes#是否使用socket方式復(fù)制數(shù)據(jù)。目前redis復(fù)制提供兩種方式,disk和socket。如果新的slave連上來或者重連的slave無法部分同步,就會執(zhí)行全量同步,master會生成rdb文件。有2種方式:disk方式是master創(chuàng)建一個新的進(jìn)程把rdb文件保存到磁盤,再把磁盤上的rdb文件傳遞給slave。socket是master創(chuàng)建一個新的進(jìn)程,直接把rdb文件以socket的方式發(fā)給slave。disk方式的時候,當(dāng)一個rdb保存的過程中,多個slave都能共享這個rdb文件。socket的方式就的一個個slave順序復(fù)制。在磁盤速度緩慢,網(wǎng)速快的情況下推薦用socket方式。 repl-diskless-sync no#diskless復(fù)制的延遲時間,防止設(shè)置為0。一旦復(fù)制開始,節(jié)點不會再接收新slave的復(fù)制請求直到下一個rdb傳輸。所以最好等待一段時間,等更多的slave連上來。 repl-diskless-sync-delay 5#slave根據(jù)指定的時間間隔向服務(wù)器發(fā)送ping請求。時間間隔可以通過 repl_ping_slave_period 來設(shè)置,默認(rèn)10秒。 # repl-ping-slave-period 10#復(fù)制連接超時時間。master和slave都有超時時間的設(shè)置。master檢測到slave上次發(fā)送的時間超過repl-timeout,即認(rèn)為slave離線,清除該slave信息。slave檢測到上次和master交互的時間超過repl-timeout,則認(rèn)為master離線。需要注意的是repl-timeout需要設(shè)置一個比repl-ping-slave-period更大的值,不然會經(jīng)常檢測到超時。 # repl-timeout 60#是否禁止復(fù)制tcp鏈接的tcp nodelay參數(shù),可傳遞yes或者no。默認(rèn)是no,即使用tcp nodelay。如果master設(shè)置了yes來禁止tcp nodelay設(shè)置,在把數(shù)據(jù)復(fù)制給slave的時候,會減少包的數(shù)量和更小的網(wǎng)絡(luò)帶寬。但是這也可能帶來數(shù)據(jù)的延遲。默認(rèn)我們推薦更小的延遲,但是在數(shù)據(jù)量傳輸很大的場景下,建議選擇yes。 repl-disable-tcp-nodelay no#復(fù)制緩沖區(qū)大小,這是一個環(huán)形復(fù)制緩沖區(qū),用來保存最新復(fù)制的命令。這樣在slave離線的時候,不需要完全復(fù)制master的數(shù)據(jù),如果可以執(zhí)行部分同步,只需要把緩沖區(qū)的部分?jǐn)?shù)據(jù)復(fù)制給slave,就能恢復(fù)正常復(fù)制狀態(tài)。緩沖區(qū)的大小越大,slave離線的時間可以更長,復(fù)制緩沖區(qū)只有在有slave連接的時候才分配內(nèi)存。沒有slave的一段時間,內(nèi)存會被釋放出來,默認(rèn)1m。 # repl-backlog-size 5mb#master沒有slave一段時間會釋放復(fù)制緩沖區(qū)的內(nèi)存,repl-backlog-ttl用來設(shè)置該時間長度。單位為秒。 # repl-backlog-ttl 3600#當(dāng)master不可用,Sentinel會根據(jù)slave的優(yōu)先級選舉一個master。最低的優(yōu)先級的slave,當(dāng)選master。而配置成0,永遠(yuǎn)不會被選舉。 slave-priority 100#redis提供了可以讓master停止寫入的方式,如果配置了min-slaves-to-write,健康的slave的個數(shù)小于N,mater就禁止寫入。master最少得有多少個健康的slave存活才能執(zhí)行寫命令。這個配置雖然不能保證N個slave都一定能接收到master的寫操作,但是能避免沒有足夠健康的slave的時候,master不能寫入來避免數(shù)據(jù)丟失。設(shè)置為0是關(guān)閉該功能。 # min-slaves-to-write 3#延遲小于min-slaves-max-lag秒的slave才認(rèn)為是健康的slave。 # min-slaves-max-lag 10

    4)總結(jié)

    Redis目前的復(fù)制是異步的,只保證最終一致性,而不是強一致性(主從數(shù)據(jù)庫的更新還是分先后,先主后從)。要是一致性要求高的應(yīng)用,目前還是讀寫都在主庫上去。

    Redis-Sentinel

    需要對redis和sentinel的配置文件有rewrite的權(quán)限。

    1)搭建:

    環(huán)境:redis服務(wù)3個實例10086、10087、10088;sentinel服務(wù)3個監(jiān)控:20086、20087、20088

    sentinel是一個"監(jiān)視器",根據(jù)被監(jiān)視實例的身份和狀態(tài)來判斷該執(zhí)行何種操作。通過給定的配置文件來發(fā)現(xiàn)主服務(wù)器的,再通過向主服務(wù)器發(fā)送的info信息來發(fā)現(xiàn)該主服務(wù)器的從服務(wù)器。Sentinel 實際上就是一個運行在 Sentienl 模式下的 Redis 服務(wù)器,所以我們同樣可以使用以下命令來啟動一個 Sentinel實例。運行方式如下:

    redis-sentinel /path/to/sentinel.conf

    參數(shù)配置文件:

    port 20086 #默認(rèn)端口26379dir "/tmp"logfile "/var/log/redis/sentinel_20086.log"daemonize yes#格式:sentinel <option_name> <master_name> <option_value>;#該行的意思是:監(jiān)控的master的名字叫做T1(自定義),地址為127.0.0.1:10086,行尾最后的一個2代表在sentinel集群中,多少個sentinel認(rèn)為masters死了,才能真正認(rèn)為該master不可用了。 sentinel monitor T1 127.0.0.1 10086 2 #sentinel會向master發(fā)送心跳PING來確認(rèn)master是否存活,如果master在“一定時間范圍”內(nèi)不回應(yīng)PONG 或者是回復(fù)了一個錯誤消息,那么這個sentinel會主觀地(單方面地)認(rèn)為這個master已經(jīng)不可用了(subjectively down, 也簡稱為SDOWN)。而這個down-after-milliseconds就是用來指定這個“一定時間范圍”的,單位是毫秒,默認(rèn)30秒。 sentinel down-after-milliseconds T1 15000#failover過期時間,當(dāng)failover開始后,在此時間內(nèi)仍然沒有觸發(fā)任何failover操作,當(dāng)前sentinel將會認(rèn)為此次failoer失敗。默認(rèn)180秒,即3分鐘。 sentinel failover-timeout T1 120000#在發(fā)生failover主備切換時,這個選項指定了最多可以有多少個slave同時對新的master進(jìn)行同步,這個數(shù)字越小,完成failover所需的時間就越長,但是如果這個數(shù)字越大,就意味著越多的slave因為replication而不可用。可以通過將這個值設(shè)為 1 來保證每次只有一個slave處于不能處理命令請求的狀態(tài)。 sentinel parallel-syncs T1 1#sentinel 連接設(shè)置了密碼的主和從 #sentinel auth-pass <master_name> xxxxx#發(fā)生切換之后執(zhí)行的一個自定義腳本:如發(fā)郵件、vip切換等 ##sentinel notification-script <master-name> <script-path> ##不會執(zhí)行,疑問? #sentinel client-reconfig-script <master-name> <script-path> ##這個會執(zhí)行

    注意:要是參數(shù)配置的是默認(rèn)值,在sentinel運行時該參數(shù)會在配置文件文件里被刪除掉,直接不顯示。也可以在運行時用命令SENTINEL SET command動態(tài)修改,后面說明。

    很顯然,只使用單個sentinel進(jìn)程來監(jiān)控redis集群是不可靠的,當(dāng)sentinel進(jìn)程宕掉后(sentinel本身也有單點問題,single-point-of-failure)整個集群系統(tǒng)將無法按照預(yù)期的方式運行。所以有必要將sentinel集群,這樣有幾個好處:

  • 即使有一些sentinel進(jìn)程宕掉了,依然可以進(jìn)行redis集群的主備切換;
  • 如果只有一個sentinel進(jìn)程,如果這個進(jìn)程運行出錯,或者是網(wǎng)絡(luò)堵塞,那么將無法實現(xiàn)redis集群的主備切換(單點問題);
  • 如果有多個sentinel,redis的客戶端可以隨意地連接任意一個sentinel來獲得關(guān)于redis集群中的信息。
  • 本文開啟sentinel集群用了3個實例,保證各個端口和目錄不一致,配置文件如下:
    sentinel_20086.conf :

    port 20086dir "/var/lib/sentinel_20086"logfile "/var/log/redis/sentinel_20086.log"daemonize yessentinel monitor T1 127.0.0.1 10086 2sentinel down-after-milliseconds T1 15000sentinel failover-timeout T1 120000sentinel parallel-syncs T1 1#發(fā)生切換之后執(zhí)行的一個自定義腳本:如發(fā)郵件、vip切換等 #sentinel notification-script <master-name> <script-path>

    sentinel_20087.conf :

    port 20087dir "/var/lib/sentinel_20087"logfile "/var/log/redis/sentinel_20087.log"daemonize yessentinel monitor T1 127.0.0.1 10086 2sentinel down-after-milliseconds T1 15000sentinel failover-timeout T1 120000sentinel parallel-syncs T1 1#發(fā)生切換之后執(zhí)行的一個自定義腳本:如發(fā)郵件、vip切換等 #sentinel notification-script <master-name> <script-path>

    sentinel_20088.conf :

    port 20088dir "/var/lib/sentinel_20086"logfile "/var/log/redis/sentinel_20088.log"daemonize yessentinel monitor T1 127.0.0.1 10086 2sentinel down-after-milliseconds T1 15000sentinel failover-timeout T1 120000sentinel parallel-syncs T1 1#發(fā)生切換之后執(zhí)行的一個自定義腳本:如發(fā)郵件、vip切換等 #sentinel notification-script <master-name> <script-path>

    疑問:這里的參數(shù) sentinel notification-script 好像切換的時候不會執(zhí)行,參數(shù)sentinel client-reconfig-script 倒是會執(zhí)行,可以用這個參數(shù)來替換上面的參數(shù)。

    啟動sentinel:

    root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20086.conf root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20087.conf root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20088.conf

    注意:當(dāng)一個master配置為需要密碼才能連接時,客戶端和slave在連接時都需要提供密碼。master通過requirepass設(shè)置自身的密碼,不提供密碼無法連接到這個master。slave通過masterauth來設(shè)置訪問master時的密碼。客戶端需要auth提供密碼,但是當(dāng)使用了sentinel時,由于一個master可能會變成一個slave,一個slave也可能會變成master,所以需要同時設(shè)置上述兩個配置項,并且sentinel需要連接master和slave,需要設(shè)置參數(shù):sentinel auth-pass <master_name> xxxxx。

    啟動后各個sentinel的日志信息如下:

    3462:X 08 Jun 18:07:54.820 # Sentinel runid is b44bb512b3b756c97f48aff1dc37b54a30659ee9 3462:X 08 Jun 18:07:54.820 # +monitor master T1 127.0.0.1 10086 quorum 2 #主加入監(jiān)控 3462:X 08 Jun 18:07:54.823 * +slave slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 #檢測到一個slave并添加進(jìn)slave列表 3462:X 08 Jun 18:07:54.823 * +slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 #檢測到一個slave并添加進(jìn)slave列表 3462:X 08 Jun 18:07:59.515 * +sentinel sentinel 127.0.0.1:20087 127.0.0.1 20087 @ T1 127.0.0.1 10086 #增加了一個sentinel 3462:X 08 Jun 18:08:01.820 * +sentinel sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10086 #增加了一個sentinel

    關(guān)于更多的信息見:

    +reset-master <instance details> -- 當(dāng)master被重置時.+slave <instance details> -- 當(dāng)檢測到一個slave并添加進(jìn)slave列表時.+failover-state-reconf-slaves <instance details> -- Failover狀態(tài)變?yōu)閞econf-slaves狀態(tài)時+failover-detected <instance details> -- 當(dāng)failover發(fā)生時+slave-reconf-sent <instance details> -- sentinel發(fā)送SLAVEOF命令把它重新配置時+slave-reconf-inprog <instance details> -- slave被重新配置為另外一個master的slave,但數(shù)據(jù)復(fù)制還未發(fā)生時。+slave-reconf-done <instance details> -- slave被重新配置為另外一個master的slave并且數(shù)據(jù)復(fù)制已經(jīng)與master同步時。-dup-sentinel <instance details> -- 刪除指定master上的冗余sentinel時 (當(dāng)一個sentinel重新啟動時,可能會發(fā)生這個事件).+sentinel <instance details> -- 當(dāng)master增加了一個sentinel時。+sdown <instance details> -- 進(jìn)入SDOWN狀態(tài)時;-sdown <instance details> -- 離開SDOWN狀態(tài)時。+odown <instance details> -- 進(jìn)入ODOWN狀態(tài)時。-odown <instance details> -- 離開ODOWN狀態(tài)時。+new-epoch <instance details> -- 當(dāng)前配置版本被更新時。+try-failover <instance details> -- 達(dá)到failover條件,正等待其他sentinel的選舉。+elected-leader <instance details> -- 被選舉為去執(zhí)行failover的時候。+failover-state-select-slave <instance details> -- 開始要選擇一個slave當(dāng)選新master時。no-good-slave <instance details> -- 沒有合適的slave來擔(dān)當(dāng)新masterselected-slave <instance details> -- 找到了一個適合的slave來擔(dān)當(dāng)新masterfailover-state-send-slaveof-noone <instance details> -- 當(dāng)把選擇為新master的slave的身份進(jìn)行切換的時候。failover-end-for-timeout <instance details> -- failover由于超時而失敗時。failover-end <instance details> -- failover成功完成時。switch-master <master name> <oldip> <oldport> <newip> <newport> -- 當(dāng)master的地址發(fā)生變化時。通常這是客戶端最感興趣的消息了。+tilt -- 進(jìn)入Tilt模式。-tilt -- 退出Tilt模式。

    2)原理

    • ①sentinel集群通過給定的配置文件發(fā)現(xiàn)master,啟動時會監(jiān)控master。通過向master發(fā)送info信息獲得該服務(wù)器下面的所有從服務(wù)器。
    • ②sentinel集群通過命令連接向被監(jiān)視的主從服務(wù)器發(fā)送hello信息(每秒一次),該信息包括sentinel本身的ip、端口、id等內(nèi)容,以此來向其他sentinel宣告自己的存在。
    • ③sentinel集群通過訂閱連接接收其他sentinel發(fā)送的hello信息,以此來發(fā)現(xiàn)監(jiān)視同一個主服務(wù)器的其他sentinel;集群之間會互相創(chuàng)建命令連接用于通信,因為已經(jīng)有主從服務(wù)器作為發(fā)送和接收hello信息的中介,sentinel之間不會創(chuàng)建訂閱連接。
    • ④sentinel集群使用ping命令來檢測實例的狀態(tài),如果在指定的時間內(nèi)(down-after-milliseconds)沒有回復(fù)或則返回錯誤的回復(fù),那么該實例被判為下線。
    • ⑤當(dāng)failover主備切換被觸發(fā)后,failover并不會馬上進(jìn)行,還需要sentinel中的大多數(shù)sentinel授權(quán)后才可以進(jìn)行failover,即進(jìn)行failover的sentinel會去獲得指定quorum個的sentinel的授權(quán),成功后進(jìn)入ODOWN狀態(tài)。如在5個sentinel中配置了2個quorum,等到2個sentinel認(rèn)為master死了就執(zhí)行failover。
    • ⑥sentinel向選為master的slave發(fā)送SLAVEOF NO ONE命令,選擇slave的條件是sentinel首先會根據(jù)slaves的優(yōu)先級來進(jìn)行排序,優(yōu)先級越小排名越靠前。如果優(yōu)先級相同,則查看復(fù)制的下標(biāo),哪個從master接收的復(fù)制數(shù)據(jù)多,哪個就靠前。如果優(yōu)先級和下標(biāo)都相同,就選擇進(jìn)程ID較小的。
    • ⑦sentinel被授權(quán)后,它將會獲得宕掉的master的一份最新配置版本號(config-epoch),當(dāng)failover執(zhí)行結(jié)束以后,這個版本號將會被用于最新的配置,通過廣播形式通知其它sentinel,其它的sentinel則更新對應(yīng)master的配置。

    ①到③是自動發(fā)現(xiàn)機(jī)制:

    • 以10秒一次的頻率,向被監(jiān)視的master發(fā)送info命令,根據(jù)回復(fù)獲取master當(dāng)前信息。
    • 以1秒一次的頻率,向所有redis服務(wù)器、包含sentinel在內(nèi)發(fā)送PING命令,通過回復(fù)判斷服務(wù)器是否在線。
    • 以2秒一次的頻率,通過向所有被監(jiān)視的master,slave服務(wù)器發(fā)送當(dāng)前sentinel,master信息的消息。

    ④是檢測機(jī)制,⑤和⑥是failover機(jī)制,⑦是更新配置機(jī)制。

    注意:因為redis采用的是異步復(fù)制,沒有辦法避免數(shù)據(jù)的丟失。但可以通過以下配置來使得數(shù)據(jù)不會丟失:min-slaves-to-write 1 、 min-slaves-max-lag 10。一個redis無論是master還是slave,都必須在配置中指定一個slave優(yōu)先級。要注意到master也是有可能通過failover變成slave的。如果一個redis的slave優(yōu)先級配置為0,那么它將永遠(yuǎn)不會被選為master,但是它依然會從master哪里復(fù)制數(shù)據(jù)。

    3)運行測試

    上面已經(jīng)搭好了一個簡單的測試環(huán)境:redis服務(wù)3個實例10086(M)、10087(S)、10088(S);sentinel服務(wù)3個監(jiān)控:20086、20087、20088
    現(xiàn)在進(jìn)行一個故障轉(zhuǎn)移的操作:0點30分14秒kill掉10086,Sentinel日志信息:

    3466:X 09 Jun 00:30:29.067 # +sdown master T1 127.0.0.1 10086 ##進(jìn)入主觀不可用(SDOWN) 3466:X 09 Jun 00:30:29.169 # +odown master T1 127.0.0.1 10086 #quorum 2/2 ##投票好了,達(dá)到了quorum,進(jìn)入客觀不可用(ODOWN) 3466:X 09 Jun 00:30:29.169 # +new-epoch 1 ##當(dāng)前配置版本被更新 3466:X 09 Jun 00:30:29.169 # +try-failover master T1 127.0.0.1 10086 ##達(dá)到failover條件,正等待其他sentinel的選舉 3466:X 09 Jun 00:30:29.179 # +vote-for-leader e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##選舉 3466:X 09 Jun 00:30:29.183 # 127.0.0.1:20088 voted for e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##選舉 3466:X 09 Jun 00:30:29.184 # 127.0.0.1:20086 voted for e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##選舉 3466:X 09 Jun 00:30:29.241 # +elected-leader master T1 127.0.0.1 10086 ##執(zhí)行failover 3466:X 09 Jun 00:30:29.242 # +failover-state-select-slave master T1 127.0.0.1 10086 ##開始要選擇一個slave當(dāng)選新master 3466:X 09 Jun 00:30:29.344 # +selected-slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 ##找到了一個適合的slave來擔(dān)當(dāng)新master 3466:X 09 Jun 00:30:29.344 * +failover-state-send-slaveof-noone slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 ##當(dāng)把選擇為新master的slave的身份進(jìn)行切換 3466:X 09 Jun 00:30:29.447 * +failover-state-wait-promotion slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 3466:X 09 Jun 00:30:30.206 # +promoted-slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 3466:X 09 Jun 00:30:30.207 # +failover-state-reconf-slaves master T1 127.0.0.1 10086 ##Failover狀態(tài)變?yōu)閞econf-slaves 3466:X 09 Jun 00:30:30.273 * +slave-reconf-sent slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##sentinel發(fā)送SLAVEOF命令把它重新配置,重新配置到新主 3466:X 09 Jun 00:30:31.250 * +slave-reconf-inprog slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##slave被重新配置為另外一個master的slave,但數(shù)據(jù)復(fù)制還未發(fā)生 3466:X 09 Jun 00:30:31.251 * +slave-reconf-done slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##slave被重新配置為另外一個master的slave并且數(shù)據(jù)復(fù)制已經(jīng)與master同步 3466:X 09 Jun 00:30:31.340 # -odown master T1 127.0.0.1 10086 ##離開客觀不可用(ODOWN) 3466:X 09 Jun 00:30:31.340 # +failover-end master T1 127.0.0.1 10086 ##failover成功完成 3466:X 09 Jun 00:30:31.341 # +switch-master T1 127.0.0.1 10086 127.0.0.1 10088 ##master的地址發(fā)生變化 3466:X 09 Jun 00:30:31.341 * +slave slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10088 ##檢測到一個slave并添加進(jìn)slave列表 3466:X 09 Jun 00:30:31.351 * +slave slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 3466:X 09 Jun 00:30:46.362 # +sdown slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ##原主進(jìn)入主觀不可用狀態(tài)

    通過日志信息看到,15秒(down-after-milliseconds)之后進(jìn)行了failvoer操作,最后操作成功,10088變成了新主,可以通過info sentinel和sentinel maters查看主的信息。把原主開起來,日志信息:

    3466:X 09 Jun 01:00:35.306 # -sdown slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ##離開主觀不可用狀態(tài) 3466:X 09 Jun 01:00:45.249 * +convert-to-slave slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ## 檢測到一個slave并添加進(jìn)slave列表

    通過日志看到,原主起來之后變成了從。這里可以發(fā)現(xiàn)在redis配置文件(可寫權(quán)限)的最后被添加了:

    # Generated by CONFIG REWRITE slaveof 127.0.0.1 10088

    在新主上操作,可以同步復(fù)制到從庫:

    root@zhoujinyi:~# redis-cli -p 10088 127.0.0.1:10088> set dxy dxy OK 127.0.0.1:10088> get dxy "dxy" 127.0.0.1:10088> root@zhoujinyi:~# redis-cli -p 10086 127.0.0.1:10086> get dxy "dxy" 127.0.0.1:10086> root@zhoujinyi:~# redis-cli -p 10087 127.0.0.1:10087> get dxy "dxy"

    上面測試說明sentinel自動failover成功。要是kill掉一個sentinel實例會怎么樣?可以看日志:

    3466:X 09 Jun 01:14:51.039 # +sdown sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087 ##進(jìn)入主觀不可用 3466:X 09 Jun 01:15:32.610 # -sdown sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087 ##進(jìn)入客觀不可用 3466:X 09 Jun 01:15:34.497 * -dup-sentinel master T1 127.0.0.1 10087 #duplicate of 127.0.0.1:20088 or a79f189986ab9d3940de48099e18a99abef4d595 ##刪除指定master上的冗余sentinel時 (當(dāng)一個sentinel重新啟動時,可能會發(fā)生這個事件) 3466:X 09 Jun 01:15:34.498 * +sentinel sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087 ##檢測到一個sentinel,并進(jìn)入列表

    說明sentinel實例也被其他sentinel監(jiān)視(上面介紹了各個sentinel相互通信),防止sentinel單點故障。通過日志看到這么多信息,這里需要注意下下面的概念:

    ① Leader選舉:

    其實在sentinels故障轉(zhuǎn)移中,仍然需要一個“Leader”來調(diào)度整個過程:master的選舉以及slave的重配置和同步。當(dāng)集群中有多個sentinel實例時,如何選舉其中一個sentinel為leader呢?

    在配置文件中“can-failover”“quorum”參數(shù),以及“is-master-down-by-addr”指令配合來完成整個過程。

  • “can-failover”用來表明當(dāng)前sentinel是否可以參與“failover”過程,如果為“YES”則表明它將有能力參與“Leader”的選舉,否則它將作為“Observer”,observer參與leader選舉投票但不能被選舉;

  • “quorum”不僅用來控制master ODOWN狀態(tài)確認(rèn),同時還用來選舉leader時最小“贊同票”數(shù);

  • “is-master-down-by-addr”,在上文中以及提到,它可以用來檢測“ip + port”的master是否已經(jīng)處于SDOWN狀態(tài),不過此指令不僅能夠獲得master是否處于SDOWN,同時它還額外的返回當(dāng)前sentinel本地“投票選舉”的Leader信息(runid);

    每個sentinel實例都持有其他的sentinels信息,在Leader選舉過程中(當(dāng)為leader的sentinel實例失效時,有可能master server并沒失效,注意分開理解),sentinel實例將從所有的sentinels集合中去除“can-failover = no”和狀態(tài)為SDOWN的sentinels,在剩余的sentinels列表中按照runid按照“字典”順序排序后,取出runid最小的sentinel實例,并將它“投票選舉”為Leader,并在其他sentinel發(fā)送的“is-master-down-by-addr”指令時將推選的runid追加到響應(yīng)中。每個sentinel實例都會檢測“is-master-down-by-addr”的響應(yīng)結(jié)果,如果“投票選舉”的leader為自己,且狀態(tài)正常的sentinels實例中,“贊同者”的自己的sentinel個數(shù)不小于(>=) 50% + 1,且不小與,那么此sentinel就會認(rèn)為選舉成功且leader為自己。

    在sentinel.conf文件中,我們期望有足夠多的sentinel實例配置“can-failover yes”,這樣能夠確保當(dāng)leader失效時,能夠選舉某個sentinel為leader,以便進(jìn)行failover。如果leader無法產(chǎn)生,比如較少的sentinels實例有效,那么failover過程將無法繼續(xù)。

  • ② failover過程:

    在Leader觸發(fā)failover之前,首先wait數(shù)秒(隨即0~5),以便讓其他sentinel實例準(zhǔn)備和調(diào)整(有可能多個leader??),如果一切正常,那么leader就需要開始將一個salve提升為master,此slave必須為狀態(tài)良好(不能處于SDOWN/ODOWN狀態(tài))且權(quán)重值最低(redis.conf中)的,當(dāng)master身份被確認(rèn)后,開始failover

  • “+failover-triggered”: Leader開始進(jìn)行failover,此后緊跟著“+failover-state-wait-start”,wait數(shù)秒。

  • “+failover-state-select-slave”: Leader開始查找合適的slave

  • “+selected-slave”: 已經(jīng)找到合適的slave

  • “+failover-state-sen-slaveof-noone”: Leader向slave發(fā)送“slaveof no one”指令,此時slave已經(jīng)完成角色轉(zhuǎn)換,此slave即為master

  • “+failover-state-wait-promotition”: 等待其他sentinel確認(rèn)slave

  • “+promoted-slave”:確認(rèn)成功

  • “+failover-state-reconf-slaves”: 開始對slaves進(jìn)行reconfig操作。

  • “+slave-reconf-sent”:向指定的slave發(fā)送“slaveof”指令,告知此slave跟隨新的master

  • “+slave-reconf-inprog”: 此slave正在執(zhí)行slaveof + SYNC過程,如過slave收到“+slave-reconf-sent”之后將會執(zhí)行slaveof操作。

  • “+slave-reconf-done”: 此slave同步完成,此后leader可以繼續(xù)下一個slave的reconfig操作。循環(huán)G)

  • “+failover-end”: 故障轉(zhuǎn)移結(jié)束

  • “+switch-master”:故障轉(zhuǎn)移成功后,各個sentinel實例開始監(jiān)控新的master。

  • 4)命令查看、修改

    查看:

    ①:info命令

    127.0.0.1:20086> info # Server redis_version:3.0.0 #版本號 redis_git_sha1:00000000 redis_git_dirty:0 redis_build_id:e7768317ba5bdca5 redis_mode:sentinel #開啟模式 os:Linux 3.16.0-71-generic x86_64 #系統(tǒng)位數(shù) arch_bits:64 multiplexing_api:epoll gcc_version:4.8.2 process_id:2767 #線程ID run_id:319d8c58b9bf26c26ca040b53bdc0764a543648b tcp_port:20086 #端口 uptime_in_seconds:923 #允許時間 uptime_in_days:0 hz:11 lru_clock:6041117 config_file:/etc/redis/sentinel_20086.conf #配置文件# Sentinel sentinel_masters:1 sentinel_tilt:0 sentinel_running_scripts:0 sentinel_scripts_queue_length:0 master0:name=T1,status=ok,address=127.0.0.1:10087,slaves=2,sentinels=3 #主name,主ip,多少個slave,多少個sentinel

    也可以單個顯示:info server、info sentinel。

    ②:sentinel masters,顯示被監(jiān)控的所有master以及它們的狀態(tài)。要是有多個master就顯示多個(復(fù)用,監(jiān)控多個redis,即一個配置文件寫多個),例子就1個master

    127.0.0.1:20086> SENTINEL masters 1) 1) "name" #master name2) "T1"3) "ip" #master ip4) "127.0.0.1"5) "port" #master port6) "10087"7) "runid"8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b"9) "flags"10) "master"11) "pending-commands"12) "0"13) "last-ping-sent"14) "0"15) "last-ok-ping-reply"16) "261"17) "last-ping-reply"18) "261"19) "down-after-milliseconds" #ping的響應(yīng)時間20) "15000"21) "info-refresh"22) "620"23) "role-reported"24) "master"25) "role-reported-time"26) "1205058"27) "config-epoch" #配置文件版本號28) "2"29) "num-slaves" #從的數(shù)量30) "2"31) "num-other-sentinels" #除本身外還有多少個sentinel32) "2"33) "quorum" #投票數(shù)量34) "2"35) "failover-timeout" #failover超時時間36) "120000"37) "parallel-syncs" #多少個從同步38) "1"

    ③:sentinel master <master_name>,顯示指定master的信息和狀態(tài)。

    127.0.0.1:20086> sentinel master T11) "name"2) "T1"3) "ip"4) "127.0.0.1"5) "port"6) "10087"7) "runid"8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b"9) "flags" 10) "master" 11) "pending-commands" 12) "0" 13) "last-ping-sent" 14) "0" 15) "last-ok-ping-reply" 16) "909" 17) "last-ping-reply" 18) "909" 19) "down-after-milliseconds" 20) "15000" 21) "info-refresh" 22) "5820" 23) "role-reported" 24) "master" 25) "role-reported-time" 26) "1501345" 27) "config-epoch" 28) "2" 29) "num-slaves" 30) "2" 31) "num-other-sentinels" 32) "2" 33) "quorum" 34) "2" 35) "failover-timeout" 36) "120000" 37) "parallel-syncs" 38) "1"

    ④:sentinel slaves <master_name>,顯示指定master的所有slave以及它們的狀態(tài)。

    127.0.0.1:20086> sentinel slaves T1 1) 1) "name"2) "127.0.0.1:10088"3) "ip"4) "127.0.0.1"5) "port"6) "10088"7) "runid"8) "380a4d9e32aefd3a00c7a64ba8bce451643044f1"9) "flags"10) "slave"11) "pending-commands"12) "0"13) "last-ping-sent"14) "0"15) "last-ok-ping-reply"16) "15"17) "last-ping-reply"18) "15"19) "down-after-milliseconds"20) "15000"21) "info-refresh"22) "7558"23) "role-reported"24) "slave"25) "role-reported-time"26) "1934978"27) "master-link-down-time"28) "0"29) "master-link-status"30) "ok"31) "master-host"32) "127.0.0.1"33) "master-port"34) "10087"35) "slave-priority"36) "100"37) "slave-repl-offset"38) "361068" 2) 1) "name"2) "127.0.0.1:10086"3) "ip"4) "127.0.0.1"5) "port"6) "10086"7) "runid"8) "9babf78ee2b420d2671b12f93b68c4d19a5edf08"9) "flags"10) "slave"11) "pending-commands"12) "0"13) "last-ping-sent"14) "0"15) "last-ok-ping-reply"16) "15"17) "last-ping-reply"18) "15"19) "down-after-milliseconds"20) "15000"21) "info-refresh"22) "7558"23) "role-reported"24) "slave"25) "role-reported-time"26) "1934978"27) "master-link-down-time"28) "0"29) "master-link-status"30) "ok"31) "master-host"32) "127.0.0.1"33) "master-port"34) "10087"35) "slave-priority"36) "100"37) "slave-repl-offset"38) "361068"

    ⑤:sentinel get-master-addr-by-name <master_name>,返回指定master的ip和端口,如果正在進(jìn)行failover或者failover已經(jīng)完成,將會顯示被提升為master的slave的ip和端口。

    27.0.0.1:20086> sentinel get-master-addr-by-name T1 1) "127.0.0.1" 2) "10087"

    ⑥:sentinel reset :重置名字匹配該正則表達(dá)式的所有的master的狀態(tài)信息,清除其之前的狀態(tài)信息,以及slaves信息。比如刪除一個slave或則sentinel時候,先關(guān)閉停止想要刪除的進(jìn)程,再執(zhí)行:

    sentinel reset *

    ⑦:sentinel failover <master_name> 強制sentinel執(zhí)行failover,并且不需要得到其他sentinel的同意。但是failover后會將最新的配置發(fā)送給其他sentinel。

    127.0.0.1:20086> sentinel failover T1 OK 127.0.0.1:20086> sentinel get-master-addr-by-name T1 1) "127.0.0.1" 2) "10088" #主被切換了

    ⑧:查看其他sentinel信息

    sentinel sentinels T1

    ⑨:檢查sentinel監(jiān)控是否正確

    sentinel ckquorum T1

    ⑩:配置文件丟失,重寫配置文件

    sentinel flushconfig

    修改:包括參數(shù)

    ①:sentinel monitor <master_mname> ,監(jiān)控一個新的redis master(這時通過sentinel masters可以看到多個)

    127.0.0.1:20086> SENTINEL MONITOR T2 127.0.0.1 10089 2 OK

    ②:sentinel remove <master_name> 命令sentinel放棄對某個master的監(jiān)聽。刪掉上一個加的:

    127.0.0.1:20086> sentinel remove T2 OK

    ③:sentinel set <master_name> 這個命令很像Redis的CONFIG SET命令,用來改變指定master的配置。支持多個。

    127.0.0.1:20086> sentinel masters 1) ...37) "parallel-syncs"38) "1" 127.0.0.1:20086> sentinel set T1 parallel-syncs 2 #格式 OK 127.0.0.1:20086> sentinel masters 1) ...37) "parallel-syncs"38) "2"

    注意:只要是配置文件中存在的配置項,都可以用SENTINEL SET命令來設(shè)置。這個還可以用來設(shè)置master的屬性,比如說quorum(票數(shù)),而不需要先刪除master,再重新添加master。

    5) 增加或刪除Sentinel

    增加一個sentinel很簡單,直接配置好參數(shù)開啟一個sentinel即可。添加時最好一個接著一個添加,這樣可以預(yù)防網(wǎng)絡(luò)隔離帶來的問題,可以每個30秒添加一個sentinel。通過SENTINEL MASTER mastername(T1)中的num-other-sentinels來查看是否成功添加sentinel。刪除一個sentinel稍微復(fù)雜一點,sentinel永遠(yuǎn)不會刪除一個已經(jīng)存在過的sentinel,即使它已經(jīng)與組織失去聯(lián)系。遵循如下步驟:

  • 停止所要刪除的sentinel

  • 發(fā)送一個SENTINEL RESET * 命令給所有其它的sentinel實例,如果你想要重置指定master上面的sentinel,只需要把*號改為特定的名字,注意,需要一個接一個發(fā),每次發(fā)送的間隔不低于30秒。

  • 檢查一下所有的sentinels是否都有一致的當(dāng)前sentinel數(shù)。使用SENTINEL MASTER mastername 來查詢。

  • 首先 kill 掉一個sentinel127.0.0.1:20086> sentinel master T11) "name"2) "T1"3) "ip"4) "127.0.0.1"5) "port"6) "10088"... 31) "num-other-sentinels" 32) "2" ... 127.0.0.1:20086> sentinel reset T1 #重新導(dǎo)入或則執(zhí)行下面的 (integer) 1 127.0.0.1:20086> sentinel reset * #因為只有監(jiān)視一個主,所以和上面一致 (integer) 1 127.0.0.1:20086> sentinel masters 1) 1) "name"2) "T1"3) "ip"4) "127.0.0.1"5) "port"6) "10088" ... ...31) "num-other-sentinels" #sentinel slave的數(shù)量32) "1" ...

    6)刪除舊master或者不可達(dá)slave

    要永久地刪除掉一個slave(有可能它曾經(jīng)是個master),你只需要發(fā)送一個SENTINEL RESET master命令給所有的sentinels,它們將會更新列表里能夠正確地復(fù)制master數(shù)據(jù)的slave。 遵循如下步驟:

  • 停止所要刪除的redis slave。

  • 發(fā)送一個SENTINEL RESET * 命令給所有其它的sentinel實例,如果你想要重置指定master上面的slave,只需要把*號改為特定的名字。

  • 檢查一下所有的sentinels是否都有一致的當(dāng)前sentinel數(shù)。使用SENTINEL MASTER mastername 來查詢。

  • 首先 kill 掉一個slave127.0.0.1:20086> sentinel masters 1) 1) "name"2) "T1"3) "ip"4) "127.0.0.1"5) "port"6) "10088" ...29) "num-slaves" #多少個slave30) "2" ... 127.0.0.1:20086> sentinel reset T1 #重新導(dǎo)入或則執(zhí)行下面的 (integer) 1 127.0.0.1:20086> sentinel reset * #和上面一致 (integer) 1 127.0.0.1:20086> sentinel masters 1) 1) "name"2) "T1"3) "ip"4) "127.0.0.1"5) "port"6) "10088" ...29) "num-slaves" #多少個slave30) "1" ...

    注意:要是再次開啟關(guān)閉掉的redis slave會繼續(xù)當(dāng)成一個slave,若要徹底關(guān)閉slave,則需要修改關(guān)閉掉的redis配置文件中最后的:

    # Generated by CONFIG REWRITE slaveof 127.0.0.1 10088 #關(guān)閉改參數(shù)

    7)總結(jié)

    Redis-Sentinel是Redis官方推薦的高可用性(HA) 解決方案,Redis-sentinel本身也是一個獨立運行的進(jìn)程,它能監(jiān)控多個master-slave集群,發(fā)現(xiàn)master宕機(jī)后能進(jìn)行自動切換。Sentinel可以監(jiān)視任意多個主服務(wù)器(復(fù)用),以及主服務(wù)器屬下的從服務(wù)器,并在被監(jiān)視的主服務(wù)器下線時,自動執(zhí)行故障轉(zhuǎn)移操作。

    為了防止sentinel的單點故障,可以對sentinel進(jìn)行集群化,創(chuàng)建多個sentinel。

    總結(jié)

    以上是生活随笔為你收集整理的Redis 复制、Sentinel的搭建和原理说明的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。