當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据之路Week10_day05 (Redis总结I）

發布時間：2025/3/8 编程问答 16 如意码农

生活随笔收集整理的這篇文章主要介紹了大数据之路Week10_day05 (Redis总结I）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

正文

1、為什么使用redis

分析:博主覺得在項目中使用redis，主要是從兩個角度去考慮:性能和并發。當然，redis還具備可以做分布式鎖等其他功能，但是如果只是為了分布式鎖這些其他功能，完全還有其他中間件(如zookpeer等)代替，并不是非要使用redis。因此，這個問題主要從性能和并發兩個角度去答。
回答:如下所示，分為兩點
（一）性能
如下圖所示，我們在碰到需要執行耗時特別久，且結果不頻繁變動的SQL，就特別適合將運行結果放入緩存。這樣，后面的請求就去緩存中讀取，使得請求能夠迅速響應。

題外話：忽然想聊一下這個迅速響應的標準。其實根據交互效果的不同，這個響應時間沒有固定標準。不過曾經有人這么告訴我:"在理想狀態下，我們的頁面跳轉需要在瞬間解決，對于頁內操作則需要在剎那間解決。另外，超過一彈指的耗時操作要有進度提示，并且可以隨時中止或取消，這樣才能給用戶最好的體驗。"
那么瞬間、剎那、一彈指具體是多少時間呢？
根據《摩訶僧祗律》記載

一剎那者為一念，二十念為一瞬，二十瞬為一彈指，二十彈指為一羅預，二十羅預為一須臾，一日一夜有三十須臾。

那么，經過周密的計算，一瞬間為0.36 秒,一剎那有 0.018 秒.一彈指長達 7.2 秒。
（二）并發
如下圖所示，在大并發的情況下，所有的請求直接訪問數據庫，數據庫會出現連接異常。這個時候，就需要使用redis做一個緩沖操作，讓請求先訪問到redis，而不是直接訪問數據庫。

2、使用redis有什么缺點

分析:大家用redis這么久，這個問題是必須要了解的，基本上使用redis都會碰到一些問題，常見的也就幾個。
回答:主要是四個問題
(一)緩存和數據庫雙寫一致性問題
(二)緩存雪崩問題
(三)緩存擊穿問題
(四)緩存的并發競爭問題
這四個問題，我個人是覺得在項目中，比較常遇見的，具體解決方案，后文給出。

3、單線程的redis為什么這么快

分析:這個問題其實是對redis內部機制的一個考察。其實根據博主的面試經驗，很多人其實都不知道redis是單線程工作模型。所以，這個問題還是應該要復習一下的。
回答:主要是以下三點
(一)純內存操作
(二)單線程操作，避免了頻繁的上下文切換
(三)采用了非阻塞I/O多路復用機制

題外話：我們現在要仔細的說一說I/O多路復用機制，因為這個說法實在是太通俗了，通俗到一般人都不懂是什么意思。博主打一個比方：小曲在S城開了一家快遞店，負責同城快送服務。小曲因為資金限制，雇傭了一批快遞員，然后小曲發現資金不夠了，只夠買一輛車送快遞。
經營方式一
客戶每送來一份快遞，小曲就讓一個快遞員盯著，然后快遞員開車去送快遞。慢慢的小曲就發現了這種經營方式存在下述問題

幾十個快遞員基本上時間都花在了搶車上了，大部分快遞員都處在閑置狀態，誰搶到了車，誰就能去送快遞
隨著快遞的增多，快遞員也越來越多，小曲發現快遞店里越來越擠，沒辦法雇傭新的快遞員了
快遞員之間的協調很花時間

綜合上述缺點，小曲痛定思痛，提出了下面的經營方式
經營方式二
小曲只雇傭一個快遞員。然后呢，客戶送來的快遞，小曲按送達地點標注好，然后依次放在一個地方。最后，那個快遞員依次的去取快遞，一次拿一個，然后開著車去送快遞，送好了就回來拿下一個快遞。

對比
上述兩種經營方式對比，是不是明顯覺得第二種，效率更高，更好呢。在上述比喻中:

每個快遞員------------------>每個線程
每個快遞-------------------->每個socket(I/O流)
快遞的送達地點-------------->socket的不同狀態
客戶送快遞請求-------------->來自客戶端的請求
小曲的經營方式-------------->服務端運行的代碼
一輛車---------------------->CPU的核數

于是我們有如下結論
1、經營方式一就是傳統的并發模型，每個I/O流(快遞)都有一個新的線程(快遞員)管理。
2、經營方式二就是I/O多路復用。只有單個線程(一個快遞員)，通過跟蹤每個I/O流的狀態(每個快遞的送達地點)，來管理多個I/O流。

下面類比到真實的redis線程模型，如圖所示

參照上圖，簡單來說，就是。我們的redis-client在操作的時候，會產生具有不同事件類型的socket。在服務端，有一段I/0多路復用程序，將其置入隊列之中。然后，文件事件分派器，依次去隊列中取，轉發到不同的事件處理器中。
需要說明的是，這個I/O多路復用機制，redis還提供了select、epoll、evport、kqueue等多路復用函數庫，大家可以自行去了解。

4、redis的數據類型，以及每種數據類型的使用場景

分析：是不是覺得這個問題很基礎，其實我也這么覺得。然而根據面試經驗發現，至少百分八十的人答不上這個問題。建議，在項目中用到后，再類比記憶，體會更深，不要硬記。基本上，一個合格的程序員，五種類型都會用到。
回答：一共五種
(一)String
這個其實沒啥好說的，最常規的set/get操作，value可以是String也可以是數字。一般做一些復雜的計數功能的緩存。
(二)hash
這里value存放的是結構化的對象，比較方便的就是操作其中的某個字段。博主在做單點登錄的時候，就是用這種數據結構存儲用戶信息，以cookieId作為key，設置30分鐘為緩存過期時間，能很好的模擬出類似session的效果。
(三)list
使用List的數據結構，可以做簡單的消息隊列的功能。另外還有一個就是，可以利用lrange命令，做基于redis的分頁功能，性能極佳，用戶體驗好。
(四)set
因為set堆放的是一堆不重復值的集合。所以可以做全局去重的功能。為什么不用JVM自帶的Set進行去重？因為我們的系統一般都是集群部署，使用JVM自帶的Set，比較麻煩，難道為了一個做一個全局去重，再起一個公共服務，太麻煩了。
另外，就是利用交集、并集、差集等操作，可以計算共同喜好，全部的喜好，自己獨有的喜好等功能。
(五)sorted set
sorted set多了一個權重參數score,集合中的元素能夠按score進行排列。可以做排行榜應用，取TOP N操作。另外，參照另一篇《分布式之延時任務方案解析》，該文指出了sorted set可以用來做延時任務。最后一個應用就是可以做范圍查找。

5、redis的過期策略以及內存淘汰機制

分析:這個問題其實相當重要，到底redis有沒用到家，這個問題就可以看出來。比如你redis只能存5G數據，可是你寫了10G，那會刪5G的數據。怎么刪的，這個問題思考過么？還有，你的數據已經設置了過期時間，但是時間到了，內存占用率還是比較高，有思考過原因么?
回答:
redis采用的是定期刪除+惰性刪除策略。
為什么不用定時刪除策略?
定時刪除,用一個定時器來負責監視key,過期則自動刪除。雖然內存及時釋放，但是十分消耗CPU資源。在大并發請求下，CPU要將時間應用在處理請求，而不是刪除key,因此沒有采用這一策略.
定期刪除+惰性刪除是如何工作的呢?
定期刪除，redis默認每個100ms檢查，是否有過期的key,有過期key則刪除。需要說明的是，redis不是每個100ms將所有的key檢查一次，而是隨機抽取進行檢查(如果每隔100ms,全部key進行檢查，redis豈不是卡死)。因此，如果只采用定期刪除策略，會導致很多key到時間沒有刪除。
于是，惰性刪除派上用場。也就是說在你獲取某個key的時候，redis會檢查一下，這個key如果設置了過期時間那么是否過期了？如果過期了此時就會刪除。
采用定期刪除+惰性刪除就沒其他問題了么?
不是的，如果定期刪除沒刪除key。然后你也沒即時去請求key，也就是說惰性刪除也沒生效。這樣，redis的內存會越來越高。那么就應該采用內存淘汰機制。
在redis.conf中有一行配置

# maxmemory-policy volatile-lru

該配置就是配內存淘汰策略的(什么，你沒配過？好好反省一下自己)
1）noeviction：當內存不足以容納新寫入數據時，新寫入操作會報錯。應該沒人用吧。
2）allkeys-lru：當內存不足以容納新寫入數據時，在鍵空間中，移除最近最少使用的key。推薦使用，目前項目在用這種。
3）allkeys-random：當內存不足以容納新寫入數據時，在鍵空間中，隨機移除某個key。應該也沒人用吧，你不刪最少使用Key,去隨機刪。
4）volatile-lru：當內存不足以容納新寫入數據時，在設置了過期時間的鍵空間中，移除最近最少使用的key。這種情況一般是把redis既當緩存，又做持久化存儲的時候才用。不推薦
5）volatile-random：當內存不足以容納新寫入數據時，在設置了過期時間的鍵空間中，隨機移除某個key。依然不推薦
6）volatile-ttl：當內存不足以容納新寫入數據時，在設置了過期時間的鍵空間中，有更早過期時間的key優先移除。不推薦
ps：如果沒有設置 expire 的key, 不滿足先決條件(prerequisites); 那么 volatile-lru, volatile-random 和 volatile-ttl 策略的行為, 和 noeviction(不刪除) 基本上一致。

6、redis和數據庫雙寫一致性問題

分析:一致性問題是分布式常見問題，還可以再分為最終一致性和強一致性。數據庫和緩存雙寫，就必然會存在不一致的問題。答這個問題，先明白一個前提。就是如果對數據有強一致性要求，不能放緩存。我們所做的一切，只能保證最終一致性。另外，我們所做的方案其實從根本上來說，只能說降低不一致發生的概率，無法完全避免。因此，有強一致性要求的數據，不能放緩存。
回答:

先做一個說明，從理論上來說，給緩存設置過期時間，是保證最終一致性的解決方案。這種方案下，我們可以對存入緩存的數據設置過期時間，所有的寫操作以數據庫為準，對緩存操作只是盡最大努力即可。也就是說如果數據庫寫成功，緩存更新失敗，那么只要到達過期時間，則后面的讀請求自然會從數據庫中讀取新值然后回填緩存。因此，接下來討論的思路不依賴于給緩存設置過期時間這個方案。
在這里，我們討論三種更新策略：

先更新數據庫，再更新緩存
先刪除緩存，再更新數據庫
先更新數據庫，再刪除緩存

應該沒人問我，為什么沒有先更新緩存，再更新數據庫這種策略。

(1)先更新數據庫，再更新緩存

這套方案，大家是普遍反對的。為什么呢？有如下兩點原因。
原因一（線程安全角度）
同時有請求A和請求B進行更新操作，那么會出現
（1）線程A更新了數據庫
（2）線程B更新了數據庫
（3）線程B更新了緩存
（4）線程A更新了緩存
這就出現請求A更新緩存應該比請求B更新緩存早才對，但是因為網絡等原因，B卻比A更早更新了緩存。這就導致了臟數據，因此不考慮。
原因二（業務場景角度）
有如下兩點：
（1）如果你是一個寫數據庫場景比較多，而讀數據場景比較少的業務需求，采用這種方案就會導致，數據壓根還沒讀到，緩存就被頻繁的更新，浪費性能。
（2）如果你寫入數據庫的值，并不是直接寫入緩存的，而是要經過一系列復雜的計算再寫入緩存。那么，每次寫入數據庫后，都再次計算寫入緩存的值，無疑是浪費性能的。顯然，刪除緩存更為適合。

接下來討論的就是爭議最大的，先刪緩存，再更新數據庫。還是先更新數據庫，再刪緩存的問題。

(2)先刪緩存，再更新數據庫

該方案會導致不一致的原因是。同時有一個請求A進行更新操作，另一個請求B進行查詢操作。那么會出現如下情形:
（1）請求A進行寫操作，刪除緩存
（2）請求B查詢發現緩存不存在
（3）請求B去數據庫查詢得到舊值
（4）請求B將舊值寫入緩存
（5）請求A將新值寫入數據庫
上述情況就會導致不一致的情形出現。而且，如果不采用給緩存設置過期時間策略，該數據永遠都是臟數據。
那么，如何解決呢？采用延時雙刪策略
偽代碼如下

<code>public void write(String key,Object data){
redis.delKey(key);
db.updateData(data);
Thread.sleep(1000);
redis.delKey(key);
}</code>

轉化為中文描述就是
（1）先淘汰緩存
（2）再寫數據庫（這兩步和原來一樣）
（3）休眠1秒，再次淘汰緩存
這么做，可以將1秒內所造成的緩存臟數據，再次刪除。
那么，這個1秒怎么確定的，具體該休眠多久呢？
針對上面的情形，讀者應該自行評估自己的項目的讀數據業務邏輯的耗時。然后寫數據的休眠時間則在讀數據業務邏輯的耗時基礎上，加幾百ms即可。這么做的目的，就是確保讀請求結束，寫請求可以刪除讀請求造成的緩存臟數據。
如果你用了mysql的讀寫分離架構怎么辦？
ok，在這種情況下，造成數據不一致的原因如下，還是兩個請求，一個請求A進行更新操作，另一個請求B進行查詢操作。
（1）請求A進行寫操作，刪除緩存
（2）請求A將數據寫入數據庫了，
（3）請求B查詢緩存發現，緩存沒有值
（4）請求B去從庫查詢，這時，還沒有完成主從同步，因此查詢到的是舊值
（5）請求B將舊值寫入緩存
（6）數據庫完成主從同步，從庫變為新值
上述情形，就是數據不一致的原因。還是使用雙刪延時策略。只是，睡眠時間修改為在主從同步的延時時間基礎上，加幾百ms。
采用這種同步淘汰策略，吞吐量降低怎么辦？
ok，那就將第二次刪除作為異步的。自己起一個線程，異步刪除。這樣，寫的請求就不用沉睡一段時間后了，再返回。這么做，加大吞吐量。
第二次刪除,如果刪除失敗怎么辦？
這是個非常好的問題，因為第二次刪除失敗，就會出現如下情形。還是有兩個請求，一個請求A進行更新操作，另一個請求B進行查詢操作，為了方便，假設是單庫：
（1）請求A進行寫操作，刪除緩存
（2）請求B查詢發現緩存不存在
（3）請求B去數據庫查詢得到舊值
（4）請求B將舊值寫入緩存
（5）請求A將新值寫入數據庫
（6）請求A試圖去刪除請求B寫入對緩存值，結果失敗了。
ok,這也就是說。如果第二次刪除緩存失敗，會再次出現緩存和數據庫不一致的問題。
如何解決呢？
具體解決方案，且看博主對第(3)種更新策略的解析。

(3)先更新數據庫，再刪緩存

首先，先說一下。老外提出了一個緩存更新套路，名為《Cache-Aside pattern》。其中就指出

失效：應用程序先從cache取數據，沒有得到，則從數據庫中取數據，成功后，放到緩存中。
命中：應用程序從cache中取數據，取到后返回。
更新：先把數據存到數據庫中，成功后，再讓緩存失效。

另外，知名社交網站facebook也在論文《Scaling Memcache at Facebook》中提出，他們用的也是先更新數據庫，再刪緩存的策略。
這種情況不存在并發問題么？
不是的。假設這會有兩個請求，一個請求A做查詢操作，一個請求B做更新操作，那么會有如下情形產生
（1）緩存剛好失效
（2）請求A查詢數據庫，得一個舊值
（3）請求B將新值寫入數據庫
（4）請求B刪除緩存
（5）請求A將查到的舊值寫入緩存
ok，如果發生上述情況，確實是會發生臟數據。
然而，發生這種情況的概率又有多少呢？
發生上述情況有一個先天性條件，就是步驟（3）的寫數據庫操作比步驟（2）的讀數據庫操作耗時更短，才有可能使得步驟（4）先于步驟（5）。可是，大家想想，數據庫的讀操作的速度遠快于寫操作的（不然做讀寫分離干嘛，做讀寫分離的意義就是因為讀操作比較快，耗資源少），因此步驟（3）耗時比步驟（2）更短，這一情形很難出現。
假設，有人非要抬杠，有強迫癥，一定要解決怎么辦？
如何解決上述并發問題？
首先，給緩存設有效時間是一種方案。其次，采用策略（2）里給出的異步延時刪除策略，保證讀請求完成以后，再進行刪除操作。
還有其他造成不一致的原因么？
有的，這也是緩存更新策略（2）和緩存更新策略（3）都存在的一個問題，如果刪緩存失敗了怎么辦，那不是會有不一致的情況出現么。比如一個寫數據請求，然后寫入數據庫了，刪緩存失敗了，這會就出現不一致的情況了。這也是緩存更新策略（2）里留下的最后一個疑問。
如何解決？
提供一個保障的重試機制即可，這里給出兩套方案。
方案一：
如下圖所示

流程如下所示
（1）更新數據庫數據；
（2）緩存因為種種問題刪除失敗
（3）將需要刪除的key發送至消息隊列
（4）自己消費消息，獲得需要刪除的key
（5）繼續重試刪除操作，直到成功
然而，該方案有一個缺點，對業務線代碼造成大量的侵入。于是有了方案二，在方案二中，啟動一個訂閱程序去訂閱數據庫的binlog，獲得需要操作的數據。在應用程序中，另起一段程序，獲得這個訂閱程序傳來的信息，進行刪除緩存操作。
方案二：

流程如下圖所示：
（1）更新數據庫數據
（2）數據庫會將操作信息寫入binlog日志當中
（3）訂閱程序提取出所需要的數據以及key
（4）另起一段非業務代碼，獲得該信息
（5）嘗試刪除緩存操作，發現刪除失敗
（6）將這些信息發送至消息隊列
（7）重新從消息隊列中獲得該數據，重試操作。

備注說明：上述的訂閱binlog程序在mysql中有現成的中間件叫canal，可以完成訂閱binlog日志的功能。至于oracle中，博主目前不知道有沒有現成中間件可以使用。另外，重試機制，博主是采用的是消息隊列的方式。如果對一致性要求不是很高，直接在程序中另起一個線程，每隔一段時間去重試即可，這些大家可以靈活自由發揮，只是提供一個思路。

總結

本文其實是對目前互聯網中已有的一致性方案，進行了一個總結。對于先刪緩存，再更新數據庫的更新策略，還有方案提出維護一個內存隊列的方式，博主看了一下，覺得實現異常復雜，沒有必要，因此沒有必要在文中給出。最后，希望大家有所收獲。

7、如何應對緩存穿透和緩存雪崩問題

分析:這兩個問題，說句實在話，一般中小型傳統軟件企業，很難碰到這個問題。如果有大并發的項目，流量有幾百萬左右。這兩個問題一定要深刻考慮。
回答:如下所示
緩存穿透，即黑客故意去請求緩存中不存在的數據，導致所有的請求都懟到數據庫上，從而數據庫連接異常。
解決方案:
(一)利用互斥鎖，緩存失效的時候，先去獲得鎖，得到鎖了，再去請求數據庫。沒得到鎖，則休眠一段時間重試
(二)采用異步更新策略，無論key是否取到值，都直接返回。value值中維護一個緩存失效時間，緩存如果過期，異步起一個線程去讀數據庫，更新緩存。需要做緩存預熱(項目啟動前，先加載緩存)操作。
(三)提供一個能迅速判斷請求是否有效的攔截機制，比如，利用布隆過濾器，內部維護一系列合法有效的key。迅速判斷出，請求所攜帶的Key是否合法有效。如果不合法，則直接返回。
緩存雪崩，即緩存同一時間大面積的失效，這個時候又來了一波請求，結果請求都懟到數據庫上，從而導致數據庫連接異常。
解決方案:
(一)給緩存的失效時間，加上一個隨機值，避免集體失效。
(二)使用互斥鎖，但是該方案吞吐量明顯下降了。
(三)雙緩存。我們有兩個緩存，緩存A和緩存B。緩存A的失效時間為20分鐘，緩存B不設失效時間。自己做緩存預熱操作。然后細分以下幾個小點

I 從緩存A讀數據庫，有則直接返回
II A沒有數據，直接從B讀數據，直接返回，并且異步啟動一個更新線程。
III 更新線程同時更新緩存A和緩存B。

8、如何解決redis的并發競爭key問題

分析:這個問題大致就是，同時有多個子系統去set一個key。這個時候要注意什么呢？大家思考過么。需要說明一下，博主提前百度了一下，發現答案基本都是推薦用redis事務機制。博主不推薦使用redis的事務機制。因為我們的生產環境，基本都是redis集群環境，做了數據分片操作。你一個事務中有涉及到多個key操作的時候，這多個key不一定都存儲在同一個redis-server上。因此，redis的事務機制，十分雞肋。
回答:如下所示
(1)如果對這個key操作，不要求順序
這種情況下，準備一個分布式鎖，大家去搶鎖，搶到鎖就做set操作即可，比較簡單。
(2)如果對這個key操作，要求順序
假設有一個key1,系統A需要將key1設置為valueA,系統B需要將key1設置為valueB,系統C需要將key1設置為valueC.
期望按照key1的value值按照 valueA-->valueB-->valueC的順序變化。這種時候我們在數據寫入數據庫的時候，需要保存一個時間戳。假設時間戳如下

系統A key 1 {valueA 3:00}
系統B key 1 {valueB 3:05}
系統C key 1 {valueC 3:10}

那么，假設這會系統B先搶到鎖，將key1設置為{valueB 3:05}。接下來系統A搶到鎖，發現自己的valueA的時間戳早于緩存中的時間戳，那就不做set操作了。以此類推。

其他方法，比如利用隊列，將set方法變成串行訪問也可以。總之，靈活變通。

總結

本文對redis的常見問題做了一個總結。大部分是博主自己在工作中遇到，以及以前面試別人的時候，愛問的一些問題。另外，不推薦大家臨時抱佛腳，真正碰到一些有經驗的工程師，其實幾下就能把你問懵。最后，希望大家有所收獲吧。

總結

以上是生活随笔為你收集整理的大数据之路Week10_day05 (Redis总结I）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。