Prometheus 序章/第一/二讲
Prometheus 序章
1 Prometheus的整體框架圖
2 監(jiān)控對運(yùn)維的重要性
運(yùn)維是什么?說白了就是管理服務(wù)器,保證服務(wù)器給線上產(chǎn)品提供穩(wěn)定運(yùn)行的服務(wù)環(huán)境
在控是什么?說白了就是用一種形式去盯著觀察服務(wù)器把服務(wù)器的各種行為表現(xiàn)都顯示出來用以發(fā)現(xiàn)問題和不足
報(bào)警是什么?監(jiān)控和報(bào)警這兩個(gè)詞一定要分開說分開理解!監(jiān)控是監(jiān)控,報(bào)警是報(bào)警。控是把行為表現(xiàn)展示出來,用來觀察的。報(bào)警則是當(dāng)監(jiān)控獲取的數(shù)據(jù)發(fā)生異常并且到達(dá)了某個(gè)臨界點(diǎn)的時(shí)候,采用各種途徑來通知用戶通知管理員通知運(yùn)維人員甚至通知老板。
很多時(shí)候總是把監(jiān)控和報(bào)警混在一起說這是不正確的需要糾正
如下圖所示
3 監(jiān)控組成部分和流程
4 Prometheus + Grafana 的一個(gè)數(shù)據(jù)監(jiān)控釆集成圖
5 報(bào)警
報(bào)警跟監(jiān)控嚴(yán)格來說是需要分開對待的
因?yàn)閳?bào)警也有專門的報(bào)警系統(tǒng)
報(bào)警系統(tǒng)包括幾種主要的展現(xiàn)形式:短信報(bào)警,郵件報(bào)警,電話報(bào)警(語音播報(bào)),通訊軟件
不像監(jiān)控系統(tǒng)比較成型的報(bào)警系統(tǒng)目前大多數(shù)都是收費(fèi)的商業(yè)化
報(bào)警系統(tǒng)中最重要的一個(gè)概念之一就是對報(bào)警閾值的理解
閾值 (trigger Value),是監(jiān)控系統(tǒng)中對數(shù)據(jù)到達(dá)某一個(gè)臨界值的定義
例如:通過監(jiān)控發(fā)現(xiàn),當(dāng)前某一臺(tái)機(jī)器的CPU突然升高,到達(dá)了99%的使用率,99就是作為一次報(bào)警的觸發(fā)闊值
6 pagerduty 商業(yè)報(bào)警系統(tǒng)
pagerduty
Pagerduty擁有短信,電話,郵件所有的報(bào)警機(jī)制
Pagerduty還有非常實(shí)用的必要的運(yùn)維值班管理制度和報(bào)警升級等等擴(kuò)展功能往后我們會(huì)陸續(xù)介紹到
Pagerduty的優(yōu)點(diǎn)非常多,使用率非常高(外企幾乎清一色的使用,國內(nèi)企業(yè)很多也在使用)
但是有優(yōu)點(diǎn)就肯定也有不足
Pagerduty有幾個(gè)小問題需要提高
對中文的支持不好或者說幾乎不支持(指的是語音播報(bào)方面)
站點(diǎn)主要在美國和海外網(wǎng)速有時(shí)候不太給力∞可以走代理的方式加快速度
7 Prometheus 的優(yōu)劣
- 相比其他老款監(jiān)控的不可被替代的巨大優(yōu)勢,以及一些不足有待提高的地方
- 監(jiān)控?cái)?shù)據(jù)的精細(xì)程度絕對的第一可以精確到1~5秒的采集精度我們來算算采集精度
- 集群部署的速度監(jiān)控腳本的制作(指的是熟練之后)非常快速大大縮短監(jiān)控的搭建時(shí)間成本周邊插件很豐富大多數(shù)都不需要自己開發(fā)了
- 本身基于數(shù)學(xué)計(jì)算模型,大量的實(shí)用函數(shù)可以實(shí)現(xiàn)很復(fù)雜規(guī)則的業(yè)務(wù)邏輯監(jiān)控(例如QPs的曲線彎曲凸起下跌的比例等等模糊概念)
- 可以嵌入很多開源工具的內(nèi)部進(jìn)行監(jiān)控?cái)?shù)據(jù)更準(zhǔn)時(shí)更可信(其他監(jiān)控很難做到這一點(diǎn))
- 本身是開源的,更新速度快,bug修復(fù)快·支持N多種語言做本身和插件的二次開發(fā)
- 圖形很高大上很美觀老板特別喜歡看這種業(yè)務(wù)圖(主要是指跟 Grafana的結(jié)合)
一些不足的地方
- 因其數(shù)據(jù)采集的精度如果集群數(shù)量太大,那么單點(diǎn)的監(jiān)控有性能瓶頸目前尚不支持集群只能 workaround
- 學(xué)習(xí)成本太大,尤其是其獨(dú)有的數(shù)學(xué)命令行(非常強(qiáng)大的同時(shí)又極其難學(xué)《=自學(xué)的情況下),中文資料極少,本身的各種數(shù)學(xué)模型的概念很復(fù)雜
- 對磁盤資源也是耗費(fèi)的較大,這個(gè)具體要看監(jiān)控的集群量和監(jiān)控項(xiàng)的多少和保存時(shí)間的長短
- 本身的使用需要使用者的數(shù)學(xué)不能太差要有一定的數(shù)學(xué)頭腦
總結(jié)
以上是生活随笔為你收集整理的Prometheus 序章/第一/二讲的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows 客户端的Navicat
- 下一篇: Zabbix 企业级监控