SRE重要理念之SLA、SLO、SLI
生活随笔
收集整理的這篇文章主要介紹了
SRE重要理念之SLA、SLO、SLI
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
SLA (service level agreement):服務(wù)等級(jí)協(xié)議
指的是整個(gè)協(xié)議,協(xié)議的內(nèi)容包含了SLI,SLO以及恢復(fù)的方式和時(shí)間等等一系列所構(gòu)成的協(xié)議
這種協(xié)定可能是,如果服務(wù)失效、或者達(dá)不到預(yù)期的效果,該怎樣做。一般是賠償、退款,當(dāng)然也有其他形式。一般來說,SRE是不參與SLA的制定,因?yàn)镾LA更靠近商務(wù)層面或者產(chǎn)品設(shè)計(jì)層面。
比如谷歌搜素這項(xiàng)服務(wù),并沒有暴露給用戶的SLI,但是卻有和全世界都簽訂協(xié)議,也就是SLA。(你注冊(cè)谷歌賬號(hào)時(shí),一大堆的文字)
SLO(service level objective):服務(wù)等級(jí)目標(biāo)
指的是目標(biāo),例如:qps 99.99% ,響應(yīng)時(shí)間10ms等等
SLO是一組值的范圍,這個(gè)值就是由SLI定義的服務(wù)級(jí)別數(shù)值。自然的SLO定義就是,某SLI在正常情況下需要小于某值或者處于某個(gè)大小值之間。
選擇一個(gè)合適的SLO并不是一件容易的事情,當(dāng)然一開始并不需要設(shè)定好這個(gè)范圍,比如說QPS,這個(gè)指標(biāo)取決于你的用戶,而你是無法預(yù)先做出判斷的。(比如運(yùn)維平臺(tái)上線了某個(gè)服務(wù),你可能預(yù)測(cè)這服務(wù)最后每天的使用量能達(dá)到100次,但實(shí)際并沒人用,因?yàn)榭赡苡脩舳疾恢烙羞@么一項(xiàng)功能)
確定一個(gè)SLO,和服務(wù)怎樣運(yùn)行也有關(guān)系(how service to perform)
SLI(service level indicator):服務(wù)等級(jí)對(duì)象
指的是對(duì)象,例如:qps,響應(yīng)時(shí)間,準(zhǔn)確性,可用性,延遲,生產(chǎn)力等
不是所有的metric都視為SLI,選擇盡可能少的SLI,但這些SLI卻能說明服務(wù)是否穩(wěn)定,可靠。
這些SLI應(yīng)該:
用戶側(cè)系統(tǒng)(user-facing serving systems):可用性(a)延遲(latency)服務(wù)生產(chǎn)力(throughput)。換句話說:服務(wù)能響應(yīng)用戶的請(qǐng)求嗎?響應(yīng)要耗時(shí)多久?我們能處理多少請(qǐng)求?
存儲(chǔ)系統(tǒng)(storage systems):延遲,可用性和持久性。換句話說:成功寫數(shù)據(jù)需要多久?是否能正確獲取到想要的數(shù)據(jù)?
大數(shù)據(jù)系統(tǒng)(big data systems):對(duì)于數(shù)據(jù)處理管道(data processing pipeline),就需要去關(guān)注生產(chǎn)力與端對(duì)端的延遲(end-to-end latency)換句話說:有多少數(shù)據(jù)被處理?從獲取數(shù)據(jù)到處理完成耗時(shí)多少?
總結(jié)
以上是生活随笔為你收集整理的SRE重要理念之SLA、SLO、SLI的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JAVA Web Servlet中的异步
- 下一篇: JAVA Web Servlet中的异步