监控:系统构架重要的一环
監控非常有用,不僅能及時預警發現故障,事后還能提供詳實的數據用于追查定位問題。
監控也非常重要,從產品的角度來看,沒有監控意味著產品是不可靠不安全的。從技術的角度來看,沒有監控意味著分析bug就如同盲人摸象,不知下次故障何時發生,出現故障后毫無頭緒,無法解決。
說到監控大家首先想到的是運維監控,不過監控不僅僅是運維的工作。后端可以有后端的監控(如監控php的致命錯誤),前端也可以有前端的監控(如監控app閃退)。甚至產品運營都要各自的監控,它是一種實用方法。
運維監控:
目標:
1.實時監控系統
2.能實時反饋系統狀態
3.保障服務安全穩定
4.保證產品穩定運行
方法:
1.了解監控對象
2.分析監控對象有哪些指標,例如CPU的指標有使用率、負載、用戶態、內核態、上下文切換
?3.給每個指標設置閾值,可以設多個閾值,例如提醒閾值,警告閾值,故障閾值。
4.超過提醒/警告/故障閥值時需要設計處理流程,例如在管理端醒目顯示,給相關責任人發送消息等等
作用:
1.發現問題
2.定位問題
3.可以第一時間解決問題
4.總結過往問題為系統優化提供方向。
工具:
Zabbix(神器),有它就夠了!是一個分布式監控系統,支持多種采集方式和采集客戶端,有專用的Agent代理,也支持SNMP、IPMI、JMX、Telnet、SSH等多種協議,它將采集到的數據存放到數據庫,然后對其進行分析整理,達到條件觸發告警。其靈活的擴展性和豐富的功能是其他監控系統所不能比的。相對來說,它的總體功能做的非常優秀。?
從以上各種監控系統的對比來看,Zabbix都是具有優勢的,其豐富的功能、可擴展的能力、二次開發的能力和簡單易用的特點,讀者只要稍加學習,即可構建自己的監控系統。
流程:
1.采集各種指標(種類繁多)的數據值。
2.將采回得數據存儲到DB
3.分析數據
4.展示數據和結論
5.超過閾值報警
6.可以設置處理流程,例如自動重啟等等。
細類:
硬件監控,系統監控?,應用監控?,網絡監控?,流量分析?,日志監控?,安全監控?,API監控?,性能監控?,業務監控等等。
這里的每個分類都可以講很多,就不展開了,需要了解的自行百度。當然Zabbix工具基本可以覆蓋這些監控。
軟件開發中的監控思想:
軟件能夠上線并不意味著軟件運行過程中不會出現bug,服務器硬件不會出現故障,進程不會假死等等很多問題。最好的效果是即使出現故障也要是負責人第一時間知道而不是用戶先投訴。
?
軟件開發的過程中可以考慮的監控手段有一下這些:
心跳檢測(比較適合客戶端模式的軟件):軟件定時發送心跳包,而監控程序不停的檢測是否有心跳,如果檢測到說明軟件已經掛掉了或者假死中。
通過異常/錯誤處理過程將錯誤信息發給責任人,每種編程語言都有異常/錯誤處理,我們可以自定義異常/錯誤處理類/方法,將錯誤/異常信息第一時間發送給開發者。
?
一個例子:監控線上php的致命異常
具體的實現思路是這樣的:
1.php產生致命錯誤會通過日志類記錄這個致命的bug。
2.在日志類中埋入一個鉤子程序(切面編程思想)
3.通過鉤子程序將錯誤信息發布到kafka(異步處理,防止阻塞)
4.另一個程序訂閱kafka中的錯誤信息,分析后,將錯誤信息通過釘釘發送給開發者。
5.開發者第一時間獲取到錯誤信息,立馬定位修改bug。
6.bug及時修復上線,避免重大損失。
?
?
歡迎大家討論和指正!!!
轉載于:https://www.cnblogs.com/chaogege1/p/9687869.html
總結
以上是生活随笔為你收集整理的监控:系统构架重要的一环的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: enum
- 下一篇: B1277 [HNOI2002]Tinu