當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

一致性协议raft详解（三）：raft中的消息类型

發(fā)布時(shí)間：2024/2/28 编程问答 67 豆豆

生活随笔收集整理的這篇文章主要介紹了一致性协议raft详解（三）：raft中的消息类型小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一致性協(xié)議raft詳解（三）：raft中的消息類型

- 前言
- raft 節(jié)點(diǎn)
- Raft中RPC的種類
- - RequestVote
  - - leader選舉成功后
  - AppendEntries
  - - 請(qǐng)求參數(shù)
    - 返回值
    - - 存儲(chǔ)日志（日志同步過(guò)程）
  - InstallSnapshot RPC
  - - 快照的并發(fā)性
    - 快照實(shí)現(xiàn)以及何時(shí)做快照
    - 快照實(shí)現(xiàn)
    - - disk-based
      - memory-based
- 參考鏈接

前言

有關(guān)一致性協(xié)議的資料網(wǎng)上有很多，當(dāng)然錯(cuò)誤也有很多。筆者在學(xué)習(xí)的過(guò)程中走了不少?gòu)澛贰，F(xiàn)在回過(guò)頭來(lái)看，最好的學(xué)習(xí)資料就是Leslie Lamport和Diego Ongaro的數(shù)篇論文、Ongaro在youtube上發(fā)的三個(gè)視頻講解，以及何登成的ppt。

本系列文章是只是筆者在學(xué)習(xí)一致性協(xié)議過(guò)程中的摘抄和總結(jié)，有疏漏之處敬請(qǐng)諒解，歡迎討論。

raft 節(jié)點(diǎn)

Raft算法中服務(wù)器有三種角色

Follower

Candidate

Leader

每個(gè)服務(wù)器上都會(huì)存儲(chǔ)的持久狀態(tài):

currentTerm: 當(dāng)前節(jié)點(diǎn)所能看到的最大的term值, 初始化為0并單調(diào)遞增

votedFor: 當(dāng)前term里將票投給對(duì)象的candidateId, 如果尚未投票則為空(我實(shí)現(xiàn)時(shí)置為-1)

log[]: 日志條目(每條日志條目包含命令和任期), 會(huì)按順序作用于狀態(tài)機(jī), 第一個(gè)索引Index為1

每個(gè)服務(wù)器上都會(huì)存儲(chǔ)的易失狀態(tài):

commitIndex: 當(dāng)前服務(wù)器已知已提交的最高的日志條目的索引（每次選舉之后leader將其初始為0，單調(diào)遞增）（這個(gè)代表了整個(gè)raft集群的最后一個(gè)index，根據(jù)figure8，這個(gè)參數(shù)有可能因?yàn)槠渌?jié)點(diǎn)而被改變）

所謂的CommitIndex，就是已經(jīng)達(dá)成多數(shù)派，可以應(yīng)用的最新日志位置

lastApplied: 當(dāng)前服務(wù)器已經(jīng)被應(yīng)用到狀態(tài)機(jī)的最高的日志條目的索引（初始值為0，單調(diào)遞增）（這個(gè)參數(shù)代表了自己這個(gè)節(jié)點(diǎn)目前到底持久化了多少日志）

上面兩個(gè)index只是索引，可能會(huì)有空擋，比如某個(gè)log entry沒(méi)有commit上

在狀態(tài)為L(zhǎng)eader的服務(wù)器上會(huì)額外存儲(chǔ)的易失狀態(tài):

nextIndex[]: 針對(duì)每個(gè)其他節(jié)點(diǎn), 下一個(gè)需要發(fā)送的日志條目的索引, 初始化為leader最后一個(gè)日志索引+1

matchIndex[]: 針對(duì)每個(gè)其他節(jié)點(diǎn), 當(dāng)前所知的和Leader匹配的最高日志索引, 初始化為0并單調(diào)遞增

Raft中RPC的種類

RequestVote

candidate節(jié)點(diǎn)請(qǐng)求其他節(jié)點(diǎn)投票給自己

請(qǐng)求參數(shù):

term: 當(dāng)前candidate節(jié)點(diǎn)的term值

candidateId: 當(dāng)前candidate節(jié)點(diǎn)的編號(hào)

lastLogIndex: 當(dāng)前candidate節(jié)點(diǎn)最后一個(gè)日志的索引

lastLogTerm: 當(dāng)前candidate節(jié)點(diǎn)最后一個(gè)日志的term值

返回值:

term: 接受投票節(jié)點(diǎn)的term值, 主要用來(lái)更新當(dāng)前candidate節(jié)點(diǎn)的term值

voteGranted: 是否給該申請(qǐng)節(jié)點(diǎn)投票

一個(gè)節(jié)點(diǎn)（無(wú)論當(dāng)前是什么狀態(tài)）在接收到RequestVote(term, candidateId, lastLogIndex, lastLogTerm)消息時(shí), 其會(huì)做如下判斷：

如果參數(shù)攜帶的term < currentTerm, 則返回currentTerm并拒絕投票請(qǐng)求: (currentTerm, false), 并保持當(dāng)前節(jié)點(diǎn)狀態(tài)不變

如果當(dāng)前term voteFor=null，做以下檢查：

如果參數(shù)攜帶的term > currentTerm

leader會(huì)stepdown，并且提升term，然后重新選主（這點(diǎn)可以通過(guò)Leader Stickiness進(jìn)行優(yōu)化）

follower會(huì)拒絕leader的請(qǐng)求，提升term，然后重新選主

經(jīng)過(guò)以上的過(guò)程之后，節(jié)點(diǎn)仍需要將request lastLogIndex和自己的最后一條日志的index進(jìn)行比較（leader就是最后一條日志(比如lastapplied或者最后一個(gè)log的index)，follower就是commitIndex），確保candidate節(jié)點(diǎn)的日志至少和自己一樣新，才可以同意RequestVote RPC

如果參數(shù)攜帶的term = currentTerm，直接判斷candidate的日志是否至少和自己一樣新，如果是則同意RequestVote RPC

leader選舉成功后

領(lǐng)導(dǎo)人：

一旦成為領(lǐng)導(dǎo)人：發(fā)送空的附加日志 RPC（心跳）給其他所有的服務(wù)器；在一定的空余時(shí)間之后不停的重復(fù)發(fā)送，以阻止follower超時(shí)（5.2 節(jié)）
如果接收到來(lái)自客戶端的請(qǐng)求：附加條目到本地日志中，在條目被應(yīng)用到狀態(tài)機(jī)后響應(yīng)客戶端（5.3 節(jié)）
如果對(duì)于一個(gè)follower，如果leader發(fā)現(xiàn)自己的最后日志條目的索引值大于等于 nextIndex，那么：發(fā)送從 nextIndex 開(kāi)始的所有日志條目：
- 如果成功：更新相應(yīng)follower的 nextIndex 和 matchIndex
- 如果因?yàn)槿罩静灰恢露?#xff0c;減少 nextIndex 重試
如果存在一個(gè)滿足N > commitIndex的 N，并且大多數(shù)的matchIndex[i] ≥ N成立，并且log[N].term == currentTerm成立，那么令 commitIndex 等于這個(gè) N （5.3 和 5.4 節(jié)）（figure 8），這樣的話，leader就可以把漏下的日志補(bǔ)上
- 之所以這么做，是因?yàn)樵谛碌膌eader選舉的過(guò)程中，老的leader是可以繼續(xù)生效的，那么也就導(dǎo)致新的leader可能確實(shí)了一部分老leader最后commit的日志，或者network partition了，某個(gè)節(jié)點(diǎn)的term很大，導(dǎo)致其一定是主，但是這個(gè)主上有很多漏掉的leader

AppendEntries

leader節(jié)點(diǎn)使用該消息向其他節(jié)點(diǎn)同步日志, 或者發(fā)送空消息作為心跳包以維持leader的統(tǒng)治地位

請(qǐng)求參數(shù)

term: 當(dāng)前l(fā)eader節(jié)點(diǎn)的term值

leaderId: 當(dāng)前l(fā)eader節(jié)點(diǎn)的編號(hào)（注：follower根據(jù)領(lǐng)導(dǎo)者id把客戶端的請(qǐng)求重定向到領(lǐng)導(dǎo)者，比如有時(shí)客戶端把請(qǐng)求發(fā)給了follower而不是leader）

prevLogIndex: 當(dāng)前發(fā)送的日志的前面一個(gè)日志的索引

prevLogTerm: 當(dāng)前發(fā)送的日志的前面一個(gè)日志的term值（這個(gè)和上一個(gè)作用是follower日志有效性檢查）

entries[]: 需要各個(gè)節(jié)點(diǎn)存儲(chǔ)的日志條目(用作心跳包時(shí)為空, 可能會(huì)出于效率發(fā)送超過(guò)一個(gè)日志條目)

leaderCommit: 當(dāng)前l(fā)eader節(jié)點(diǎn)最高的被提交的日志的索引(就是leader節(jié)點(diǎn)的commitIndex)

返回值

term: 接收日志節(jié)點(diǎn)的term值, 主要用來(lái)更新當(dāng)前l(fā)eader節(jié)點(diǎn)的term值

success: 如果接收日志節(jié)點(diǎn)的log[]結(jié)構(gòu)中prevLogIndex索引處含有日志并且該日志的term等于prevLogTerm則返回true, 否則返回false

一個(gè)節(jié)點(diǎn)（無(wú)論當(dāng)前是什么狀態(tài)）接收到AppendEntries(term, leaderId, prevLogIndex, prevLogTerm, entries[], leaderCommit)消息時(shí), 其會(huì)做如下判斷(條件從上往下依次判斷):

如果參數(shù)攜帶的term < currentTerm, 則返回當(dāng)前term并返回: (currentTerm, false), 并保持當(dāng)前節(jié)點(diǎn)狀態(tài)不變

如果參數(shù)攜帶的term >= currentTerm, 則設(shè)置currentTerm = term, voteFor = leaderId, 轉(zhuǎn)換當(dāng)前節(jié)點(diǎn)為Follower狀態(tài), 重置隨機(jī)定時(shí)器, 進(jìn)入下一步判斷:

如果當(dāng)前節(jié)點(diǎn)log[]結(jié)構(gòu)中prevLogIndex索引處不含有日志, 則返回(currentTerm, false)

如果當(dāng)前節(jié)點(diǎn)log[]結(jié)構(gòu)中prevLogIndex索引處含有日志但該日志的term不等于prevLogTerm, 則返回(currentTerm, false)

如果當(dāng)前節(jié)點(diǎn)log[]結(jié)構(gòu)中prevLogIndex索引處含有日志并且該日志的term等于prevLogTerm, 則執(zhí)行存儲(chǔ)日志, 然后應(yīng)用日志到狀態(tài)機(jī)并返回(currentTerm, true)

以上三點(diǎn)說(shuō)明了，log在一個(gè)節(jié)點(diǎn)上是順序append的（日志提交的順序：先append再apply）

存儲(chǔ)日志（日志同步過(guò)程）

Leader上為每個(gè)節(jié)點(diǎn)維護(hù)NextIndex、MatchIndex，NextIndex表示待發(fā)往該節(jié)點(diǎn)的Entry index，MatchIndex表示該節(jié)點(diǎn)已匹配的Entry index，同時(shí)每個(gè)節(jié)點(diǎn)維護(hù)CommitIndex表示當(dāng)前已提交的Entry index。轉(zhuǎn)為L(zhǎng)eader后會(huì)將所有節(jié)點(diǎn)的NextIndex置為自己最后一條日志index+1，MatchIndex全置0，同時(shí)將自身CommitIndex置0。

Leader節(jié)點(diǎn)不斷將user_data轉(zhuǎn)為Entry追加到日志文件末尾，Entry包含index、term和user_data，其中index在日志文件中從1開(kāi)始順序分配，term為L(zhǎng)eader當(dāng)前的term。

Leader通過(guò)AppendEntry RPC將Entry同步到Followers，Follower收到后校驗(yàn)該Entry之前的日志是否已匹配。如匹配則直接寫(xiě)入Entry，返回成功；否則刪除不匹配的日志，返回失敗。校驗(yàn)是通過(guò)在AppendEntry RPC中攜帶待寫(xiě)入Entry的前一條entry信息完成。

當(dāng)Follower返回成功時(shí)，leader更新對(duì)應(yīng)節(jié)點(diǎn)的NextIndex和MatchIndex，繼續(xù)發(fā)送后續(xù)的Entry。如果MatchIndex更新后，大多數(shù)節(jié)點(diǎn)的MatchIndex已大于CommitIndex，則更新CommitIndex。Follower返回失敗時(shí)回退NextIndex繼續(xù)發(fā)送，直到Follower返回成功。

Leader每次AppendEntry RPC中會(huì)攜帶當(dāng)前最新的LeaderCommitIndex，Follower寫(xiě)入成功時(shí)會(huì)將自身CommitIndex更新為Min(LastLogIndex,LeaderCommitIndex)。

leader會(huì)將commit index置為0 --> 大部分follower將commitindex推進(jìn)之后 --> leader才會(huì)推進(jìn)自己的commit index --> leader代表整個(gè)系統(tǒng)推進(jìn)commit index

InstallSnapshot RPC

該rpc主要用于leader將集群的快照同步給其他節(jié)點(diǎn)。這里主要講一下快照的機(jī)制：

本節(jié)主要參考文章條分縷析 Raft 算法(續(xù))：日志壓縮和性能優(yōu)化

log過(guò)多就需要做快照，最初設(shè)計(jì) LogCabin 的時(shí)候沒(méi)有考慮日志壓縮，因此代碼上假定了如果 entry i 在日志中，那么 entry 1 到 i - 1 也一定在日志中。有了日志壓縮，這就不再成立了，前面的 entry 可能已經(jīng)被丟棄了。

和配置變化不同，不同的系統(tǒng)有不同的日志壓縮方式，取決于你的性能考量，以及基于硬盤還是基于內(nèi)存。日志壓縮的大部分責(zé)任都落在狀態(tài)機(jī)上。

不同的壓縮方法有幾個(gè)核心的共同點(diǎn)：

不將壓縮決定集中在 Leader 上，每個(gè)服務(wù)器獨(dú)立地壓縮其已提交的日志。這就避免了 Leader 將日志傳遞給已有該日志的 Follower，同時(shí)也增強(qiáng)了模塊化，減少交互，將整個(gè)系統(tǒng)的復(fù)雜性最小化。（對(duì)于非常小的狀態(tài)機(jī)，基于 Leader 的日志壓縮也許更好。）

將之前的 log 的維護(hù)責(zé)任從 Raft 轉(zhuǎn)移到狀態(tài)機(jī)。Raft 要保存最后被丟棄的記錄的index和term，用于 AppendEntries RPC一致性檢查。同時(shí)，也需要保存最新的配置信息：成員變更失敗需要回退配置，最近的配置必須保存。

一旦丟棄了前面部分的日志，狀態(tài)機(jī)就承擔(dān)兩個(gè)新的責(zé)任：

如果服務(wù)器重啟了，需要將最新的快照加載到狀態(tài)機(jī)后再接受 log；此外，

需要向較慢的 follower(日志遠(yuǎn)落后于 Leader)發(fā)送一致的狀態(tài)鏡像。(InstallSnapshot RPC)

memory-based 狀態(tài)機(jī)的快照的大部分工作是序列化內(nèi)存中的數(shù)據(jù)結(jié)構(gòu)。

快照的并發(fā)性

創(chuàng)建一個(gè)快照需要耗費(fèi)很長(zhǎng)時(shí)間，包括序列化和寫(xiě)入磁盤。**因此，序列化和寫(xiě)快照都要與常規(guī)操作并發(fā)進(jìn)行，避免服務(wù)不可用。**copy-on-write 技術(shù)允許進(jìn)行新的更新而不影響寫(xiě)快照。有兩個(gè)方法來(lái)實(shí)現(xiàn)：

狀態(tài)機(jī)可以用不可變的(immutable)數(shù)據(jù)結(jié)構(gòu)來(lái)實(shí)現(xiàn)。因?yàn)闋顟B(tài)機(jī)命令不會(huì) in-place 的方式來(lái)修改狀態(tài)(通常使用追加的方式)，快照任務(wù)可以引用之前狀態(tài)的并把狀態(tài)一致地寫(xiě)入到快照。
另外，也可以使用操作系統(tǒng)的 copy-on-write。例如，在 Linux 上可以使用 fork 來(lái)復(fù)制父進(jìn)程的整個(gè)地址空間，然后子進(jìn)程就可以把狀態(tài)機(jī)的狀態(tài)寫(xiě)出并退出，整個(gè)過(guò)程中父進(jìn)程都可以持續(xù)地提供服務(wù)。LogCabin中當(dāng)前使用的就是這種方法。

快照實(shí)現(xiàn)以及何時(shí)做快照

服務(wù)器需要決定什么時(shí)候做快照。太過(guò)頻繁地做快照，將會(huì)浪費(fèi)磁盤帶寬和其他資源；太不頻繁地做快照，則有存儲(chǔ)空間耗盡的風(fēng)險(xiǎn)，并且重啟服務(wù)需要更長(zhǎng)的重放日志時(shí)間。

**一個(gè)簡(jiǎn)單的策略是設(shè)置一個(gè)閾值，當(dāng)日志大小超過(guò)閾值則做快照。**然而，這會(huì)導(dǎo)致對(duì)于小型狀態(tài)機(jī)時(shí)有著不必要的大日志。

一個(gè)更好的方法是引入快照大小和日志大小的對(duì)比，如果日志超過(guò)快照好幾倍，可能就需要做快照。但是在做快照之前計(jì)算快照的大小是困難并且繁重的，會(huì)引入額外負(fù)擔(dān)。所以使用前一個(gè)快照的大小是比較合理的行為，一旦日志大小超過(guò)之前的快照的大小乘以擴(kuò)展因子(expansion factor)，服務(wù)器就做快照。

這個(gè)擴(kuò)展因子權(quán)衡空間和帶寬利用率。例如，擴(kuò)展因子為 4 的話會(huì)有 20% 的帶寬用于快照(每1byte 的快照寫(xiě)入有對(duì)應(yīng)的 4bytes 的 log 寫(xiě)入)和大約 6 倍的硬盤空間使用(舊的快照+日志+新的快照)。

快照仍然會(huì)導(dǎo)致 CPU 和磁盤的占用率突發(fā)，可以增加額外的磁盤來(lái)減輕該現(xiàn)象。

**同時(shí)，可以通過(guò)調(diào)度使得做快照對(duì)客戶端請(qǐng)求沒(méi)有影響。**服務(wù)器需要協(xié)調(diào)保證在某一時(shí)刻集群只有小部分成員集同時(shí)在做快照。由于 Raft 是多數(shù)派成員構(gòu)成的 commit，所以這樣就不會(huì)影響請(qǐng)求的提交了。當(dāng) Leader 想做快照的時(shí)候，首先要先下臺(tái)，讓其他服務(wù)器選出另一個(gè) Leader 接替工作。如果這個(gè)方法充分地可行，就可能消除快照的并發(fā)，服務(wù)器在快照期間其實(shí)是不可用的(這可能會(huì)造成集群的容錯(cuò)能力降低的問(wèn)題)。這是一個(gè)令人興奮的提升集群性能并降低實(shí)現(xiàn)機(jī)制的機(jī)會(huì)。（這里其實(shí)可以通過(guò)實(shí)現(xiàn)指定服務(wù)器做快照來(lái)優(yōu)化，braft 里就有提到這點(diǎn)。）

快照實(shí)現(xiàn)

根據(jù)log的實(shí)現(xiàn)方式不同（分為memory-based和disk-based）,快照也有不同的實(shí)現(xiàn)方式

disk-based

對(duì)于幾十或上百 GB 的狀態(tài)機(jī)，需要使用磁盤作為主要存儲(chǔ)。對(duì)于每一條記錄，當(dāng)其被提交并應(yīng)用到狀態(tài)機(jī)后，其實(shí)就可以被丟棄了，因?yàn)榇疟P已經(jīng)持久化存儲(chǔ)了，可以理解為每條日志就做了一個(gè)快照。

Disk-based 狀態(tài)機(jī)的主要問(wèn)題是，磁盤會(huì)導(dǎo)致性能不佳。在沒(méi)有寫(xiě)緩沖的情況下，每應(yīng)用一條命了都需要進(jìn)行一次或多次隨機(jī)磁盤寫(xiě)入，這會(huì)限制系統(tǒng)的整體吞吐量。

Disk-based 狀態(tài)機(jī)仍然需要支持向日志落后的 Follower 提供最新的快照，而寫(xiě)快照也要繼續(xù)提供服務(wù)，所以仍然需要 copy-on-write 技術(shù)以在一定期間內(nèi)保持一個(gè)一致地快照傳輸。幸運(yùn)的是，磁盤總是被劃分為邏輯塊，因此在狀態(tài)機(jī)中實(shí)現(xiàn)應(yīng)該是直接的。基于磁盤的狀態(tài)機(jī)也可以依靠操作系統(tǒng)的支持，例如 Linux 的 LVM 也可以用來(lái)創(chuàng)建快照。或者是使用系統(tǒng)的COW支持，Linux的fork，或者是ZFS的Snapshot等。

memory-based

memory-based日志主要有Log-structured File System 或 LSM tree方式做快照

參考鏈接

MIT 6.824 Raft 設(shè)計(jì)文檔

總結(jié)

以上是生活随笔為你收集整理的一致性协议raft详解（三）：raft中的消息类型的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：一致性协议raft详解（二）：安全性
下一篇：一致性协议raft详解（四）：raft在