SRE学习笔记
最近項(xiàng)目快落地了,為了顯得項(xiàng)目很有用,需要制定一些指標(biāo)來描述項(xiàng)目的可靠性穩(wěn)定性等,之前沒接觸過sre的內(nèi)容,所以先學(xué)習(xí)一波。
SRE是指Site Reliability Engineer (網(wǎng)站可靠性工程師)。我的理解是,SRE就是運(yùn)維的進(jìn)化形態(tài)~負(fù)責(zé)把控web的穩(wěn)定,并對(duì)各種突發(fā)情況做出應(yīng)對(duì)。
通過在網(wǎng)上搜的得知,SRE重要理念有:
SLA (service level agreement):服務(wù)等級(jí)協(xié)議 指整個(gè)服務(wù)可靠性協(xié)議,包含SLO和SLI以及不同情況的應(yīng)對(duì)措施
SLO (service level objective):服務(wù)等級(jí)目標(biāo) 字面意思,例如響應(yīng)時(shí)間達(dá)10ms
SLI(service level indicator):服務(wù)等級(jí)對(duì)象 例如 可用性、延遲、準(zhǔn)確性等
Availability:可用性
Reliability:可靠性
Maintainability :可維護(hù)性
SRE的穩(wěn)定性指標(biāo)是一套MT開頭的縮寫,分別是:
MTBF,Mean Time Between Failure,平均故障時(shí)間間隔
Pre-MTBF 階段(無故障階段,故障演練,預(yù)案系統(tǒng))
Post-MTBF 階段(無故障階段,事后總結(jié),事件管理)
MTTR,Mean Time To Repair, 故障平均修復(fù)時(shí)間
MTTI ,Mean Time To ldentify,平均故障發(fā)現(xiàn)時(shí)間
MTTK ,Mean Time To Know,平均故障認(rèn)知時(shí)間
MTTF ,Mean Time To Fix,平均故障解決時(shí)間
MTTV ,Mean Time To Verify,平均故障修復(fù)驗(yàn)證時(shí)間
根據(jù)項(xiàng)目的需求,選擇了一些比較合適的指標(biāo)進(jìn)行使用:
可用性比例,為了顯得項(xiàng)目很好用,Availability的值越大越好,這項(xiàng)指標(biāo)可以作為每次向服務(wù)器請(qǐng)求服務(wù)的參考依據(jù),Availability有兩種計(jì)算方式:
1)Availability = uptime ÷ (uptime + downtime)
2)Availability = Successful request ÷ Total request
由于我們項(xiàng)目每次使用的時(shí)間間隔較大且不穩(wěn)定,更適合使用第二種計(jì)算方式。
2.MTBF,如上文,這是衡量平均故障時(shí)間間隔的指標(biāo),MTBF的值越大越好,這項(xiàng)指標(biāo)可以作為解析結(jié)果的參考依據(jù):
MTBF = ∑ (TOT) / F ——(TOT:Total Operational Time 總運(yùn)行時(shí)間)
TOT = ∑ (Start of Downtime after last Failure – Start of Uptime after last Failure) —— ∑ (自上次Downtime后的總運(yùn)行時(shí)間)
F = Number of Failures
MTBF也可以寫作故障率FR,FR為MTBF的倒數(shù),因此FR的值越小越好:
FR = 1 / MTBF
其他的指標(biāo)也有相應(yīng)的公式,當(dāng)有具體需求的時(shí)候就可以用上。
總結(jié)
- 上一篇: matlab复合形法优化设计,基于MAT
- 下一篇: 自动打电话服务器,MIUI v4 自己架