海空联动立体化监测简介
版權(quán)聲明:本文為神州靈云作者的原創(chuàng)文章,未經(jīng)神州靈云允許不得轉(zhuǎn)載。
本文作者:Tony
對于核心業(yè)務(wù)保障是所有IT運維的重中之重,各種監(jiān)測手段都會加之其上,編織起一張監(jiān)測的大網(wǎng),力求不遺漏任何蛛絲馬跡;但是來自主機、網(wǎng)絡(luò)、數(shù)據(jù)庫和應(yīng)用等層次的信息視角相對孤立,缺少業(yè)務(wù)流程和用戶使用體驗層次的有效關(guān)聯(lián),難以建立統(tǒng)一監(jiān)測立體覆蓋,容易造成IT運維的盲點和漏洞。
通常用OBASHI 方法論評估核心業(yè)務(wù)運作的六個“層次”,其中前兩個層次表示核心業(yè)務(wù)運作的方式,后四個層次表示支持這些運作的 IT 構(gòu)架:
- Ownership(利益相關(guān)者)
- Business Process(業(yè)務(wù)流程)
- Application(應(yīng)用程序)
- System(操作系統(tǒng))
- Hardware(硬件)
- Infrastructure(基礎(chǔ)架構(gòu))
對于承載核心業(yè)務(wù)的IT構(gòu)架,按照OBASHI方法論進(jìn)行監(jiān)測和運維保障,已經(jīng)普遍實現(xiàn):機房實時監(jiān)控、服務(wù)器及各類設(shè)備監(jiān)控、基礎(chǔ)網(wǎng)管監(jiān)控,中間件及數(shù)據(jù)庫監(jiān)控、流程及CMDB的建設(shè);但是缺乏與上兩層次的有效聯(lián)動,對于業(yè)務(wù)流程、用戶體驗、代碼性能的監(jiān)控普遍缺失,一旦出現(xiàn)業(yè)務(wù)性能問題,難以從上往下快速排查,定位故障原因費時費力。
神州靈云通過海空聯(lián)動立體化監(jiān)測方案,緊緊圍繞核心業(yè)務(wù)建模分析,從頂層開始建立對業(yè)務(wù)運行過程的全面監(jiān)測,直觀反映用戶使用感受,讓業(yè)務(wù)性能問題從發(fā)現(xiàn)到定位及最終解決都變得事半功倍,極大提升IT運維的效率;接著我們通過實例來展現(xiàn)立體化監(jiān)測的威力
<實例>
近年來隨著互聯(lián)網(wǎng)金融業(yè)務(wù)快速發(fā)展,支付寶和微信結(jié)算作為核心組成部分是運維重點,尤其商鋪的掃描收單業(yè)務(wù)直接影響到終端客戶使用感受;但是最近一段時間,每天都有客戶反映掃描支付回應(yīng)緩慢,主要集中在微信收單上,需要定位問題盡快排除故障現(xiàn)象。
首先我們通過核心業(yè)務(wù)建模,對掃碼收單業(yè)務(wù)進(jìn)行業(yè)務(wù)健康度分析,監(jiān)測正常、容忍、失望、錯誤和失敗業(yè)務(wù)數(shù)量的占比:
找出失望業(yè)務(wù),對單筆交易跟蹤分析,確定失望的原因:
這筆失望的業(yè)務(wù),原因是響應(yīng)時間達(dá)到10663ms:
檢索全量會話數(shù)據(jù),通過業(yè)務(wù)會話的唯一標(biāo)識BILLCODE找到這筆交易,確認(rèn)在后端服務(wù)器之間數(shù)據(jù)交互環(huán)節(jié)確實存在極慢響應(yīng)時間:
查看該業(yè)務(wù)的邏輯調(diào)用關(guān)系圖,發(fā)現(xiàn)每筆業(yè)務(wù)處理過程中后端服務(wù)器都會通過互聯(lián)網(wǎng)專線調(diào)用一次前端Api.weixin.qq.com和Tpay.95516.com的數(shù)據(jù);分析調(diào)用微信和銀聯(lián)數(shù)據(jù)的交互過程,發(fā)現(xiàn)從請求到獲得數(shù)據(jù),響應(yīng)時間分別是289ms和253ms,排除網(wǎng)絡(luò)故障或者對方因素導(dǎo)致調(diào)用數(shù)據(jù)緩慢:
進(jìn)一步對全量會話進(jìn)行時間排序,發(fā)現(xiàn)每次調(diào)用數(shù)據(jù)同時會經(jīng)歷一次DNS解析:
原來每次調(diào)用Api.weixin.qq.com和Tpay.95516.com數(shù)據(jù),建立連接之前都會從DNS獲得域名對應(yīng)的IP地址:
分析DNS數(shù)據(jù),發(fā)現(xiàn)由于服務(wù)器系統(tǒng)采用源端口復(fù)用,導(dǎo)致第一次DNS解析不成功,相隔5秒后再次請求DNS解析,讓掃碼收單業(yè)務(wù)處理變得緩慢;最后通過調(diào)整操作系統(tǒng)配置,取消源端口復(fù)用,徹底解決了問題。
本例中,從發(fā)現(xiàn)問題->定位問題->解決問題的完整過程,充分體現(xiàn)立體化監(jiān)測方案的優(yōu)勢,由業(yè)務(wù)建模監(jiān)測整體業(yè)務(wù)健康度,發(fā)現(xiàn)單筆極慢交易,追蹤業(yè)務(wù)調(diào)用邏輯,結(jié)合全量會話分析驗證問題,排查會話交互最終定位問題根源,徹底解決業(yè)務(wù)響應(yīng)緩慢的問題,切實提升核心業(yè)務(wù)的整體運維能力。
總結(jié)
以上是生活随笔為你收集整理的海空联动立体化监测简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Springboot+Vue的前后端分离
- 下一篇: 一种RK3399+MIPI+FPGA的高