當前位置：首頁 >

Redis集群：sharding策略

發布時間：2025/3/21 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Redis集群：sharding策略小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

為什么集群？

通常，為了提高網站響應速度，總是把熱點數據保存在內存中而不是直接從后端數據庫中讀取。Redis是一個很好的Cache工具。大型網站應用，熱點數據量往往巨大，幾十G上百G是很正常的事兒，在這種情況下，如何正確架構Redis呢？
首先，無論我們是使用自己的物理主機，還是使用云服務主機，內存資源往往是有限制的，scale up不是一個好辦法，我們需要scale out橫向可伸縮擴展，這需要由多臺主機協同提供服務，即分布式多個Redis實例協同運行。
其次，目前硬件資源成本降低，多核CPU，幾十G內存的主機很普遍，對于主進程是單線程工作的Redis，只運行一個實例就顯得有些浪費。同時，管理一個巨大內存不如管理相對較小的內存高效。因此，實際使用中，通常一臺機器上同時跑多個Redis實例。

方案

1.Redis官方集群方案 Redis Cluster（服務器分片）

其理論是，客戶端隨意與集群中的任何節點通信，服務器端負責計算某個key在哪個機器上，當客戶端訪問某臺機器時，服務器計算對應的key應該存儲在哪個機器，然后把結果返回給客戶端，客戶端再去對應的節點操作key，是一個重定向的過程，此方式是redis3.0正在實現，目前處于beta版本，?Redis3.0的集群同時支持HA功能，某個master節點掛了后，其slave會自動接管。

Redis Cluster是一種服務器Sharding技術，3.0版本開始正式提供。Redis Cluster中，Sharding采用slot(槽)的概念，一共分成16384個槽，這有點兒類似前面講的pre sharding思路。對于每個進入Redis的鍵值對，根據key進行散列，分配到這16384個slot中的某一個中。使用的hash算法也比較簡單，就是CRC16后16384取模。Redis集群中的每個node(節點)負責分攤這16384個slot中的一部分，也就是說，每個slot都對應一個node負責處理。當動態添加或減少node節點時，需要將16384個槽做個再分配，槽中的鍵值也要遷移。當然，這一過程，在目前實現中，還處于半自動狀態，需要人工介入。Redis集群，要保證16384個槽對應的node都正常工作，如果某個node發生故障，那它負責的slots也就失效，整個集群將不能工作。

為了增加集群的可訪問性，官方推薦的方案是將node配置成主從結構，即一個master主節點，掛n個slave從節點。這時，如果主節點失效，Redis Cluster會根據選舉算法從slave節點中選擇一個上升為主節點，整個集群繼續對外提供服務。

這非常類似前篇文章提到的Redis Sharding場景下服務器節點通過Sentinel監控架構成主從結構，只是Redis Cluster本身提供了故障轉移容錯的能力。
Redis Cluster的新節點識別能力、故障判斷及故障轉移能力是通過集群中的每個node都在和其它nodes進行通信，這被稱為集群總線(cluster bus)。它們使用特殊的端口號，即對外服務端口號加10000。例如如果某個node的端口號是6379，那么它與其它nodes通信的端口號是16379。nodes之間的通信采用特殊的二進制協議。
對客戶端來說，整個cluster被看做是一個整體，客戶端可以連接任意一個node進行操作，就像操作單一Redis實例一樣，當客戶端操作的key沒有分配到該node上時，就像操作單一Redis實例一樣，當客戶端操作的key沒有分配到該node上時，Redis會返回轉向指令，指向正確的node，這有點兒像瀏覽器頁面的302 redirect跳轉。
Redis Cluster是Redis 3.0以后才正式推出，時間較晚，目前能證明在大規模生產環境下成功的案例還不是很多，需要時間檢驗。

2.Redis Sharding集群（客戶端實現數據分片）

即客戶端自己計算數據的key應該在哪個機器上存儲和查找，此方法的好處是降低了服務器集群的復雜度，客戶端實現數據分片時，服務器是獨立的，服務器之前沒有任何關聯。多數redis客戶端庫實現了此功能，也叫sharding,這種方式的缺點是客戶端需要實時知道當前集群節點的聯系信息，同時，當添加一個新的節點時，客戶端要支持動態sharding.，多數客戶端實現不支持此功能，需要重啟redis。另一個弊端是redis的HA需要額外考慮。

多Redis實例服務，比單Redis實例要復雜的多，這涉及到定位、協同、容錯、擴容等技術難題。這里，我們介紹一種輕量級的客戶端Redis Sharding技術。

Redis Sharding可以說是Redis Cluster出來之前，業界普遍使用的多Redis實例集群方法。其主要思想是采用哈希算法將數據的key進行散列，然后特定的key會映射到特定的Redis節點上）。這樣，客戶端就知道該向哪個Redis節點操作數據。

Sharding架構如圖：

慶幸的是，java redis客戶端驅動jedis，已支持Redis Sharding功能，即ShardedJedis以及結合緩存池的ShardedJedisPool。
Jedis的Redis Sharding實現具有如下特點：
1、采用一致性哈希算法(consistent hashing)，將key和節點name各自hashing，，然后進行映射匹配，采用的算法是MURMUR_HASH。采用一致性哈希而不是采用簡單類似哈希求模映射的主要原因是當增加或減少節點時，不會產生由于重新匹配造成的rehashing。一致性哈希只影響相鄰節點key分配，影響量小。
2.為了避免一致性哈希只影響相鄰節點造成節點分配壓力，ShardedJedis會對每個Redis節點根據名字(沒有，Jedis會賦予缺省名字)會虛擬化出160個虛擬節點進行散列。根據權重weight，也可虛擬化出160倍數的虛擬節點。用虛擬節點做映射匹配，可以在增加或減少Redis節點時，key在各Redis節點移動再分配更均勻，而不是只有相鄰節點受影響。(就比如ABC3個節點只能映射出ABC3個散列，如果每個ABC可以虛擬出多N個，即上面說的160個（即現在有3*160個可供給映射），那么存進去的數據則會更加的均勻。)
3.ShardedJedis支持keyTagPattern模式，即抽取key的一部分keyTag做sharding，這樣通過合理命名key，可以將一組相關聯的key放入同一個Redis節點，這在避免跨節點訪問相關數據時很重要。

擴容問題

Redis Sharding采用客戶端Sharding方式，服務端Redis還是一個個相對獨立的Redis實例節點，沒有做任何變動。同時，我們也不需要增加額外的中間處理組件，這是一種非常輕量、靈活的Redis多實例集群方法。

當然，Redis Sharding這種輕量靈活方式必然在集群其它能力方面做出妥協。比如擴容，當想要增加Redis節點時，盡管采用一致性哈希，畢竟還是會有key匹配不到而丟失，這時需要鍵值遷移。
??? 作為輕量級客戶端sharding，處理Redis鍵值遷移是不現實的，這就要求應用層面允許Redis中數據丟失或從后端數據庫重新加載數據。但有些時候，擊穿緩存層，直接訪問數據庫層，會對系統訪問造成很大壓力。有沒有其它手段改善這種情況？
??? Redis作者給出了一個比較討巧的辦法–presharding，即預先根據系統規模盡量部署好多個Redis實例，這些實例占用系統資源很小，一臺物理機可部署多個，讓他們都參與sharding，當需要擴容時，選中一個實例作為主節點，新加入的Redis節點作為從節點進行數據復制。數據同步后，修改sharding配置，讓指向原實例的Shard指向新機器上擴容后的Redis節點，同時調整新Redis節點為主節點，原實例可不再使用。
這樣，我們的架構模式變成一個Redis節點切片包含一個主Redis和一個備Redis。在主Redis宕機時，備Redis接管過來，上升為主Redis，繼續提供服務。主備共同組成一個Redis節點，通過自動故障轉移，保證了節點的高可用性。則Sharding架構演變成：

Redis Sentinel提供了主備模式下Redis監控、故障轉移功能達到系統的高可用性。

高訪問量下，即使采用Sharding分片，一個單獨節點還是承擔了很大的訪問壓力，這時我們還需要進一步分解。通常情況下，應用訪問Redis讀操作量和寫操作量差異很大，讀常常是寫的數倍，這時我們可以將讀寫分離，而且讀提供更多的實例數。
可以利用主從模式實現讀寫分離，主負責寫，從負責只讀，同時一主掛多個從。在Sentinel監控下，還可以保障節點故障的自動監測。

3.利用代理中間件實現大規模Redis集群

上面分別介紹了多Redis服務器集群的兩種方式，它們是基于客戶端sharding的Redis Sharding和基于服務端sharding的Redis Cluster。

客戶端sharding技術其優勢在于服務端的Redis實例彼此獨立，相互無關聯，每個Redis實例像單服務器一樣運行，非常容易線性擴展，系統的靈活性很強。其不足之處在于：

1.由于sharding處理放到客戶端，規模進步擴大時給運維帶來挑戰。

2.服務端Redis實例群拓撲結構有變化時，每個客戶端都需要更新調整。連接不能共享，當應用規模增大時，資源浪費制約優化。

服務端sharding的Redis Cluster其優勢在于服務端Redis集群拓撲結構變化時，客戶端不需要感知，客戶端像使用單Redis服務器一樣使用Redis集群，運維管理也比較方便。不過Redis Cluster正式版推出時間不長，系統穩定性、性能等都需要時間檢驗，尤其在大規模使用場合。

能不能結合二者優勢？即能使服務端各實例彼此獨立（客戶端的好處），支持線性可伸縮，同時sharding又能集中處理（服務器端的好處），方便統一管理？本篇介紹的Redis代理中間件twemproxy就是這樣一種利用中間件做sharding的技術。
twemproxy處于客戶端和服務器的中間，將客戶端發來的請求，進行一定的處理后(如sharding)，再轉發給后端真正的Redis服務器。也就是說，客戶端不直接訪問Redis服務器，而是通過twemproxy代理中間件間接訪問。

參照Redis Sharding架構，增加代理中間件的Redis集群架構如下：
twemproxy中間件的內部處理是無狀態的，它本身可以很輕松地集群，這樣可避免單點壓力或故障。
twemproxy又叫nutcracker，起源于twitter系統中redis/memcached集群開發實踐，運行效果良好，后代碼奉獻給開源社區。其輕量高效，采用C語言開發，工程網址是：GitHub - twitter/twemproxy: A fast, light-weight proxy for memcached andredis

twemproxy后端不僅支持redis，同時也支持memcached，這是twitter系統具體環境造成的。
由于使用了中間件，twemproxy可以通過共享與后端系統的連接，降低客戶端直接連接后端服務器的連接數量。同時，它也提供sharding功能，支持后端服務器集群水平擴展。統一運維管理也帶來了方便。
當然，也是由于使用了中間件代理，相比客戶端直連服務器方式，性能上會有所損耗，實測結果大約降低了20%左右。

#################################這是分割線###########################################

說到主從備份、分片、集群往往很模糊，下面做了幾個圖來說明。

主從復制備份：

nosql的數據庫（redis mongodb等）量大部分都支持主從復制

redis分片：

redis集群：

3個方法總結：

（1）客戶端實現數據分片?

即客戶端自己計算數據的key應該在哪個機器上存儲和查找，此方法的好處是降低了服務器集群的復雜度，客戶端實現數據分片時，服務器是獨立的，服務器之前沒有任何關聯。多數redis客戶端庫實現了此功能，也叫sharding,這種方式的缺點是客戶端需要實時知道當前集群節點的聯系信息，同時，當添加一個新的節點時，客戶端要支持動態sharding.，多數客戶端實現不支持此功能，需要重啟redis。另一個弊端是redis的HA需要額外考慮。

（2）服務器實現數據分片?

其理論是，客戶端隨意與集群中的任何節點通信，服務器端負責計算某個key在哪個機器上，當客戶端訪問某臺機器時，服務器計算對應的key應該存儲在哪個機器，然后把結果返回給客戶端，客戶端再去對應的節點操作key，是一個重定向的過程，此方式是redis3.0正在實現，目前處于beta版本，?Redis 3.0的集群同時支持HA功能，某個master節點掛了后，其slave會自動接管。

（3）通過代理服務器實現數據分片?

此方式是借助一個代理服務器實現數據分片，客戶端直接與proxy聯系，proxy計算集群節點信息，并把請求發送到對應的集群節點。降低了客戶端的復雜度，需要proxy收集集群節點信息。Twemproxy是twitter開源的，實現這一功能的proxy。這個實現方式在客戶端和服務器之間加了一個proxy，但這是在redis 3.0穩定版本出來之前官方推薦的方式。結合redis-sentinel的HA方案，是個不錯的組合

總結

以上是生活随笔為你收集整理的Redis集群：sharding策略的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Redis:内存满了的解决方案
下一篇： Redis集群：哨兵（Sentinel）