软件设计中的心跳机制
原文地址:https://blog.csdn.net/qq1091606981/article/details/76255094
在軟件的設(shè)計(jì)架構(gòu)中,心跳檢測很重要,像在dubbo service、web api invoke中,需要consumer端感知provider端是否存活,不存活則切換調(diào)用另一個(gè)provider。
?
? ? ? ?一、什么是心跳檢測
? ? ? ?判斷對方(設(shè)備,進(jìn)程或其它網(wǎng)元)是否正常動(dòng)行,一般采用定時(shí)發(fā)送簡單的通訊包,如果在指定時(shí)間段內(nèi)未收到對方響應(yīng),則判斷對方已經(jīng)當(dāng)?shù)簟S糜跈z測TCP的異常斷開。
? ? ? ?基本原因是服務(wù)器端不能有效的判斷客戶端是否在線也就是說,服務(wù)器無法區(qū)分客戶端是長時(shí)間在空閑,還是已經(jīng)掉線的情況。所謂的心跳包就是客戶端定時(shí)發(fā)送簡單的信息給服務(wù)器端告訴它我還在而已。
? ? ? ?代碼就是每隔幾分鐘發(fā)送一個(gè)固定信息給服務(wù)端,服務(wù)端收到后回復(fù)一個(gè)固定信息。如果服務(wù)端幾分鐘內(nèi)沒有收到客戶端信息則視客戶端斷開。比如有些通信軟件長時(shí)間不使用,要想知道它的狀態(tài)是在線還是離線就需要心跳包,定時(shí)發(fā)包收包。
? ? ? ? 發(fā)包方可以是客戶也可以是服務(wù)端,看哪邊實(shí)現(xiàn)方便合理。一般是客戶端。服務(wù)器也可以定時(shí)輪詢發(fā)心跳下去。
? ? ? ?一般來說,出于效率的考慮,是由客戶端主動(dòng)向服務(wù)器端發(fā)包,而不是相反。
?
? ? ???二、心跳機(jī)制的實(shí)現(xiàn)機(jī)制
網(wǎng)絡(luò)中的接收和發(fā)送數(shù)據(jù)都是使用操作系統(tǒng)中的SOCKET進(jìn)行實(shí)現(xiàn)。但是如果此套接字已經(jīng)斷開,那發(fā)送數(shù)據(jù)和接收數(shù)據(jù)的時(shí)候就一定會(huì)有問題。可是如何判斷這個(gè)套接字是否還可以使用呢?這個(gè)就需要在系統(tǒng)中創(chuàng)建心跳機(jī)制。其實(shí)TCP中已經(jīng)為我們實(shí)現(xiàn)了一個(gè)叫做心跳的機(jī)制。如果你設(shè)置了心跳,那TCP就會(huì)在一定的時(shí)間(比如你設(shè)置的是3秒鐘)內(nèi)發(fā)送你設(shè)置的次數(shù)的心跳(比如說2次),并且此信息不會(huì)影響你自己定義的協(xié)議。所謂“心跳”就是定時(shí)發(fā)送一個(gè)自定義的結(jié)構(gòu)體(心跳包或心跳幀),讓對方知道自己“在線”。 以確保鏈接的有效性。
所謂的心跳包就是客戶端定時(shí)發(fā)送簡單的信息給服務(wù)器端告訴它我還在而已。代碼就是每隔幾分鐘發(fā)送一個(gè)固定信息給服務(wù)端,服務(wù)端收到后回復(fù)一個(gè)固定信息如果服務(wù)端幾分鐘內(nèi)沒有收到客戶端信息則視客戶端斷開。比如有些通信軟件長時(shí)間不使用,要想知道它的狀態(tài)是在線還是離線就需要心跳包,定時(shí)發(fā)包收包。發(fā)包方:可以是客戶也可以是服務(wù)端,看哪邊實(shí)現(xiàn)方便合理。一般是客戶端。服務(wù)器也可以定時(shí)輪詢發(fā)心跳下去。心跳包之所以叫心跳包是因?yàn)?#xff1a;它像心跳一樣每隔固定時(shí)間發(fā)一次,以此來告訴服務(wù)器,這個(gè)客戶端還活著。事實(shí)上這是為了保持長連接,至于這個(gè)包的內(nèi)容,是沒有什么特別規(guī)定的,不過一般都是很小的包,或者只包含包頭的一個(gè)空包。
在TCP的機(jī)制里面,本身是存在有心跳包的機(jī)制的,也就是TCP的選項(xiàng)。系統(tǒng)默認(rèn)是設(shè)置的是2小時(shí)的心跳頻率。但是它檢查不到機(jī)器斷電、網(wǎng)線拔出、防火墻這些斷線。而且邏輯層處理斷線可能也不是那么好處理。一般,如果只是用于保活還是可以的。心跳包一般來說都是在邏輯層發(fā)送空的包來實(shí)現(xiàn)的。下一個(gè)定時(shí)器,在一定時(shí)間間隔下發(fā)送一個(gè)空包給客戶端,然后客戶端反饋一個(gè)同樣的空包回來,服務(wù)器如果在一定時(shí)間內(nèi)收不到客戶端發(fā)送過來的反饋包,那就只有認(rèn)定說掉線了。只需要send或者recv一下,如果結(jié)果為零,則為掉線。?
但是,在長連接下,有可能很長一段時(shí)間都沒有數(shù)據(jù)往來。理論上說,這個(gè)連接是一直保持連接的,但是實(shí)際情況中,如果中間節(jié)點(diǎn)出現(xiàn)什么故障是難以知道的。更要命的是,有的節(jié)點(diǎn)(防火墻)會(huì)自動(dòng)把一定時(shí)間之內(nèi)沒有數(shù)據(jù)交互的連接給斷掉。在這個(gè)時(shí)候,就需要我們的心跳包了,用于維持長連接,保活。在獲知了斷線之后,服務(wù)器邏輯可能需要做一些事情,比如斷線后的數(shù)據(jù)清理呀,重新連接呀當(dāng)然,這個(gè)自然是要由邏輯層根據(jù)需求去做了。
? ? ? ?總的來說,心跳包主要也就是用于長連接的保活和斷線處理。一般的應(yīng)用下,判定時(shí)間在30-40秒比較不錯(cuò)。如果實(shí)在要求高,那就在6-9秒。
?
? ? ? ?三、心跳檢測的基本步驟:
? ? ? ?1. 客戶端每隔一個(gè)時(shí)間間隔發(fā)生一個(gè)探測包給服務(wù)器。
? ? ? ?2. 客戶端發(fā)包時(shí)啟動(dòng)一個(gè)超時(shí)定時(shí)器。
? ? ? ?3. 服務(wù)器端接收到檢測包,應(yīng)該回應(yīng)一個(gè)包。
? ? ? ?4. 如果客戶機(jī)收到服務(wù)器的應(yīng)答包,則說明服務(wù)器正常,刪除超時(shí)定時(shí)器。
? ? ? ?5. 如果客戶端的超時(shí)定時(shí)器超時(shí),依然沒有收到應(yīng)答包,則說明服務(wù)器掛了。
總結(jié)
以上是生活随笔為你收集整理的软件设计中的心跳机制的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 主线程启动多个子线程,子线程彼此之间并发
- 下一篇: 支付宝 ACQ.TRADE_NOT_EX