分布式监控系统开发【day37】:需求讨论(一)
本節(jié)內(nèi)容
一、為什么要做監(jiān)控??
二、常用監(jiān)控系統(tǒng)設計討論
成熟的監(jiān)控
三、監(jiān)控系統(tǒng)需求討論
1.可監(jiān)控常用系統(tǒng)服務、應用、網(wǎng)絡設備等
網(wǎng)絡層
系統(tǒng)層
應用層
業(yè)務邏輯層
2.一臺主機上可監(jiān)控多個不同服務、不同服務的監(jiān)控間隔可不同
服務A:
服務B:
3.同一個服務在不同主機上的監(jiān)控間隔、報警閾值可不同
報警閥值:
4.可以批量的給一批主機添加、刪除、修改要監(jiān)控的服務
監(jiān)控模板
linuxservices
5.告警級別:
-
不同的服務 因為業(yè)務重要程度不同,如果出了問題可以設置不同的報警級別
- 重要的服務,cup使用率打到80%,就報警
- 普通的服務,cup使用百分之98%,報警
-
可以指定特定的服務或告警級別的事件通知給特定的用戶
- 重要的服務,抄送給CTO
- 不重要的只發(fā)送給運維工程師
-
告警的升級設定
- 發(fā)送給底層運維工程師沒處理,就發(fā)送給運維經(jīng)理
- 再過半個小時沒處理,就發(fā)送給cto
-
報警合并
? ? ? ? ? ? ? ? ? ?有一個報警池,有一個腳本對池的分析
6.歷史數(shù)據(jù) 的存儲和優(yōu)化
監(jiān)控數(shù)據(jù)的處理
1、存下來,趨勢圖
大數(shù)據(jù)分析 ,視角越大,越失真
?
?
時間越長,越失真
2、報警處理
7. 數(shù)據(jù)可視化,如何做出簡潔美觀的用戶界面?
8.如何實現(xiàn)單機支持5000+機器監(jiān)控需求?
9.采取何種通信方式?主動、被動?
1、server 主動 監(jiān)控 客戶端
2、server 被動 接收 客戶端
3、主流的:混合式
1、客戶端知道監(jiān)控什么指標?
客戶端主動去問服務器我要監(jiān)控什么
2、客戶端掃描本地所有服務,全部匯報給服務器
openfalcon把機器上所有能檢測到的都抓上[2014年自動檢測到(支持一千多項)]
四、如何實現(xiàn)監(jiān)控服務器的水平擴展?
1、采用什么架構(gòu)?
?Mysql
?主動通信? Snmp,wget…
server 主動 監(jiān)控 客戶端
?被動通信?Agent ---how to communicate with the monitor server
server 被動 接收 客戶端
總結(jié):主流的的還是混合模式好
?Socket server –>? Sockect client
不可以,很多坑
?能否用現(xiàn)成的c/s架構(gòu)? Rabbit mq, redis 訂閱發(fā)布, http ?
2、采用HTTP好處
1.接口設計簡單
2.容易水平擴展做分布式
3.Socket穩(wěn)定成熟,省去較多的通信維護精力
3、Http特性:
1.短連接
2.無狀態(tài)
3.安全認證
4.被動通信
五、監(jiān)控系統(tǒng)架構(gòu)設計
?
轉(zhuǎn)載于:https://www.cnblogs.com/luoahong/p/7223580.html
總結(jié)
以上是生活随笔為你收集整理的分布式监控系统开发【day37】:需求讨论(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 农行世界杯信用卡账单日是什么时候?四种方
- 下一篇: 建行信用卡逾期一天会怎么样?利息与滞纳金