日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

SRE学习笔记2:衡量系统稳定性的指标

發布時間:2023/12/29 windows 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SRE学习笔记2:衡量系统稳定性的指标 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目前業界有兩種衡量系統可用性的方式,一個是時間維度,一個是請
求維度,我們先來看這兩個維度的計算公式。
這兩個公式很簡單,我們得深入進去,一一來看。
我們先來看時間維度的系統可用性。用一句話來概括:時長維度,是從故障角度出發對系統
穩定性進行評估。
這類計算方式我們最常見,畢竟你的系統在一段時間里不出現故障,就說明它很穩定嘛!不
過,在真實的使用場景中,怎么樣才算是可用時長,什么情況下又是不可用時長,這個是怎
么定義的呢?

時間維度:Availability = Uptime / (Uptime + Downtime)
請求維度:Availability = Successful request / Total request

我們知道,一個人如果發燒了,體溫一般會超過 37.5 度,那如果這個人的體溫正好達到這
個溫度,是不是代表他一定是生病了呢?依據生活經驗,我們知道不一定。為什么呢?因為
我們判斷一個人是否發燒生病,不是只看這一次、一時的體溫,還要看他體溫是不是持續超
過 37.5 度。
所以,這里就涉及到一個測量方法和判定方法的問題,包含三個要素:一個是衡量指標,比
如體溫就是衡量指標;第二個是衡量目標,達到什么目標是正常,達不到就是異常,低于
37.5 度算正常,超過 37.5 度就是異常,但是單次測量不能說明問題,我們可以多次測量,
比如 6 次中有至少 4 次低于 37.5 度才算正常,轉化成比例的話就是 67%;第三個是影響
時長,比如持續超過 12 小時。

對應到系統上,我們也會用一系列的標準和判定邏輯來說明系統是否正常。比如,系統請求
狀態碼為非 5xx 的比例,也就是請求成功率低于 95%,已經連續超過 10 分鐘,這時就要
算作故障,那么 10 分鐘就要納入 Downtime(宕機時間),如果達不到這個標準,就不
算作故障,只是算作一般或偶然的異常問題。
這里同樣有三個要素:衡量指標,系統請求狀態碼;衡量目標,非 5xx 占比,也就是成功
率達到 95%;影響時長,持續 10 分鐘。
因此,只有當問題達到一定影響程度才會算作故障,這時才會計算不可用時長,也就是上面
公式中的 Downtime。同時,我們還要求一個周期內,允許的 Downtime,或者說是系統
的“生病時間”是有限的,用這個有限時間來約束系統穩定性。
? ? ??針對時長維度的穩定性計算方式的弊端,就是穩定性只與故障發生掛鉤。

這就需要第二種衡量方式了,也就是從請求維度來衡量系統可用性。
用一句話來說,請求維度,是從成功請求占比的角度出發,對系統的穩定性進行評估。

?

? ? ?請求維度的系統可用性同樣包含三個關鍵要素,第一個衡量指標,請求成功率;第二個衡量
目標,成功率達到 95% 才算系統運行正常;第三個是統計周期,比如一天、一周、一個月
等等,我們是在一個統計周期內計算整體狀況,而不是看單次的。
你看,這種方式對系統運行狀況是否穩定監管得更為嚴格,不會漏掉任何一次問題的影響,
因為它對系統整體運行的穩定性判定,不僅僅會通過單次的異常影響進行評估,還會累計疊
加進行周期性的評估。
? ? ? ?到這里,我們就總結出一條至關重要的經驗了:故障一定意味著不穩定,但是不穩定,并不
意味著一定有故障發生。?

? ? ? 在?SRE 實踐中,通常會選擇第二種,也就是根據成功請
求的比例來衡量穩定性:
Availability = Successful request / Total request

?

? ? ??在 SRE 中就是設定穩定性衡量標準的 SLI 和 SLO 的過程。
具體來看下這兩個概念。SLI,Service Level Indicator,服務等級指標,其實就是我們選
擇哪些指標來衡量我們的穩定性。而 SLO,Service Level Objective,服務等級目標,指
的就是我們設定的穩定性目標,比如“幾個 9”這樣的目標。
SLI 和 SLO 這兩個概念你一定要牢牢記住,接下來我們會反復講到它們,因為落地 SRE 的
第一步其實就是“選擇合適的 SLI,設定對應的 SLO”。
? ? ?我們以電商交易系統中的一個核心應用“購物車”為例,給它取名叫做 trade_cart。
trade_cart 是以請求維度來衡量穩定性的,也就是說單次請求如果返回的是非 5xx 的狀態
碼,我們認為該次請求是成功的;如果返回的是 5xx 狀態碼,如我們常見的 502 或 503,
我們就判斷這次請求是失敗的。
但是,這個狀態碼只能標識單次請求的場景。我們之前講過,單次的異常與否并不能代表這
個應用是否穩定,所以,我們就要看在一個周期內,所有調用次數的成功率是多少,以此來
確定它是否穩定。比如我們給這個“狀態碼返回為非 5xx 的比例”設定一個目標,如果大
于等于 99.95%,我們就認為這個應用是穩定的。
在 SRE 實踐中,我們用 SLI 和 SLO 來描述。“狀態碼為非 5xx 的比例”就是 SLI,“大于
等于 99.95%”就是 SLO。說得更直接一點,SLO 是 SLI 要達成的目標。

總結

以上是生活随笔為你收集整理的SRE学习笔记2:衡量系统稳定性的指标的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。