你需要的是持续的服务改进
2019獨角獸企業重金招聘Python工程師標準>>>
IT 正在變得越來越重要,作為公司運作鏈條上的一環,公司治理框架要將自己的業務目標、業務框架向 IT 傳遞。IT不再與基礎建設和業務發展關聯脫節,而是要緊密聯系在一起的。
因此,有效的 IT 服務方法,包括識別、區分優先次序以及解決影響業務應用的性能和可用性問題。面向應用與業務的管理,以及其性能分析正在變得越來越重要,因為終端用戶依賴日益復雜的應用來實現關鍵業務交易。應用性能低下將降低生產力,影響客戶滿意度,并有損 IT 聲譽,進而導致成本攀升、收入減少、IT 變得效率低下——這些問題通常比可用性問題更加嚴重。
傳統的管理與監測解決方案通常無法識別和解決應用性能問題的根源。事實上,最近在終端用戶體驗監測、依賴性映射和相關性方面的最新進展,已讓 IT 運行經理能夠更有效地監測和解決不滿足服務水平的問題。這些技術幫助提高對整個網絡、服務器(分布式和大型主機)和其它應用層的可視性,借助技術分析因果關系,從業務的角度確定哪些響應該優先進行。實際上,即使基礎架構測量指標仍然提供主要的故障和容量數據,強調重點也已從基礎架構測量指標變成了業務測量指標。
問題和事件管理是面向應用與業務的管理的兩個核心 ITIL(信息技術基礎架構庫,簡稱 ITIL)流程。事件管理(Incident Management)是當 IT 出現問題的時候解決它們,作為對服務質量降低的一種響應。事件管理的目標是恢復服務,對業務造成盡可能小的影響。問題管理(Problem Management)強調識別和消除問題的根源。它通過改變服務和面向應用與業務的管理解決方案,增加了服務質量改進的概念。
面向應用與業務的管理解決方案通常是作為基礎架構監測實踐開始的,由 IT 機構的某個獨立業務部門實施,缺乏一致的目標。例如,網絡團隊可能要部署一個開源網絡工具,以獲得基礎網絡的可視性,而 Web 服務器團隊則可能會從一個主流的服務器廠商那里部署一個服務器監測工具。然而,自上而下地設計一個面向應用與業務的管理方案要切合實際得多。使用這種方法,您先設想結果,然后將它應用于您選擇的解決方案組件。
公司高層提供的資源支持和參與對于任何面向應用與業務的管理項目的成功都是至關重要的,因為這將要求來自多個 IT 部門的積極支持。更重要的是,這些部門對于項目的業務價值要有一致的理解,因為他們每個都可能會面對新的企業可視性,對某些東西失去控制(應對問題的新流程),或者放棄一個最受歡迎的工具。開始一個小型的面向應用與業務的管理項目,選擇一個戰略性的應用,為業務所有者和 IT 機構闡明價值,大多數機構將會從中受益。這樣一個項目的成功,將能夠被一個更全面、收益更明顯的解決方案利用。
然而,我們大多數人并不是從臨時拼湊開始設計 APM 解決方案;我們已經擁有許多一直服務于我們的目的的基礎架構工具。那么,是什么將一系列「結合平臺的」(platform-aligned)工具轉變成面向應用與業務的管理解決方案的呢?盡管對于這個問題可能會有許多技術回答,但是,這里有兩個最重要的主題:
-
業務一致性(business alignment)。全新的主要設計目標仍然應該從注重業務產出開始。對業務來說,重要的將是終端用戶的體驗——這個可通過性能和可用性進行測量。
-
相關性和故障隔離(correlation and fault isolation)。對根源的可視性,是將基礎架構提升至面向應用與業務的管理、真正理解基礎架構測量指標如何影響業務生產力的關鍵。
很容易明白諸如終端用戶體驗(end-user experience,簡稱 EUE)和基礎架構測量指標等業務相關的測量指標的相關性為何如此重要。將終端用戶體驗到的性能問題與基礎架構測量指標結合起來,隔離主要的根源,這能讓 IT 小組快速準確地專注于問題的起源,同時避免對不相關的組件采取行動。通過適當的閾值調整,這為持續業務改進奠定了基礎。同樣地,通過 EUE 的相關性,以及受影響的用戶數量和所在位置、每天交易的次數和業務價值,可以找到問題對業務的影響。
通過一系列基礎架構工具構建面向應用與業務的管理解決方案,會帶來集成和相關性方面的挑戰;您需要對主要的單一供應商(single-vendor)解決方案進行評估權衡,因為供應商和定制化的多供應商(multi-vendor)解決方案構建和交付了集成。對于更小一些的部署,定制化的解決方案可能會更省錢,但是對于較大的實施,可擴展性和維護方面的考慮將會迅速改變價格。
在設計流程里,保持對終端用戶交易響應時間的專注很重要。這有兩個原因。第一,性能分析和問題解決是為更好的了解以業務為導向的環境并提出重要意見。盡管在傳統上,基礎架構測量指標是滿足事件和問題管理的數據,但是,這些基礎測量指標和它們的閾值驅動警報在沒有業務相關性的情況下能夠變得幾乎毫無意義。例如,對于一個 2M 廣域網連接來說,75% 的利用率究竟是好還是壞呢?當應用的性能降級時,這些組件級的測量還將總會被突出?其次,從對業務影響的角度來說,IT 能夠優先對事件作出響應是有價值的,它代表了向業務一致性邁出的重要一步。
同樣重要的是,與技術和 IT 資源的成本相關的設計限制。許多面向應用與業務的管理項目不成功,是因為缺少關注和支持,因為無法維持這一解決方案、無法適應基礎架構的變化并無法定義基于真實世界反饋的流程。
基線對于任何面向應用與業務的管理解決方案實施來說可能是最重要的技術成功因素之一。基線確定了服務的正常運行,為設定警報起點提供了參考,并提供了有價值的趨勢和容量規劃信息,因為它們是真實的數據。
通常,面向應用與業務的管理解決方案會動態地為一些被觀察到的測量指標構建基線;經過數天或數星期,這些基線趨于一個正常的定義。對于其它的測量指標,您很可能想要基于一段時間內的觀察手動設定基線。將這些基線作為參考點,然后您就能夠確定性能閾值;當測量違反了特定的行為準則時,警報就會產生。至少在最初的時候,這些閾值很可能以一個超出基線的比例被設定。例如,當頁面性能從基線降低 25% 的時候,就會引發一個警報。這些引發也很可能基于一個模板或一套規則被設定,能夠包括更復雜的邏輯;再例如,當磁盤寫隊列在 60 秒內超出2至少5次的時候。 重要的、需要考慮的是哪些指標被監測,使用什么閾值;大多數的面向應用與業務的管理工具提供多種多樣的測量選項,深入的顯示出能夠被分散甚至誤導的水平值。缺省值或特定平臺的模板可能通過面向應用與業務的管理解決方案廠商、軟件/硬件廠商、系統集成商或用戶社區獲得。然而,無論是什么資源,確定這些閾值是否適用于您的特定環境都是非常必要的。盡管這一決定部分地能夠在實施期間作出,但是大多數閾值的改進都是在運行期間實現的。
最后,我們應該關注最終由 EUE 測量驅動的相關性能力。對于有效的相關性來說,最重要的是理解依賴性或交易在系統里經過的路徑。它也建議要注意測量時間。當然,不是所有的指標都能夠被連續評估,因此有些是在一段時間內進行取樣。這是一種檢測普遍性問題的有效方法。然而,間歇的問題本質上可能會是短暫的,以至于它們在取樣期間被隱藏起來。盡管這些通常只會帶來更小的業務影響(因為它們以更小的頻率影響更少的用戶),但是它們本質上更難解決。交易「跟隨」(following)——通常通過貼標簽——可能對特定的環境是合適的,然而,暫時縮短的取樣間隔時間為解決間歇問題提供一種更通用的方法。
成功的運行需要在穩定性和持續的服務改進(CSI)之間保持平衡。對許多企業來說,僅僅只有在故障發生并嚴重威脅到業務的時候,CSI 才會成為一個項目。一旦該問題得到解決,這一概念又會立即被拋到腦后,直到下一個重大故障發生的時候才會被再次記起。一個更周全的 CSI 方法將在事件和問題管理方面帶來明顯的改善,幫助 IT 機構更好地解決和預防問題的發生。
正如之前提及的,面向應用與業務的管理成功的關鍵——既確保業務一致性,又能解決問題——在于相關性。一個強大的 CSI 流程強調去改進被監測到的并找到更合適的閾值。
考慮一個面向應用與業務的管理方案的實施,終端用戶體驗和基礎架構指標要能被監測。當事件發生的時候——無論這個事件是由 EUE 警報引起的,還是因為一個實際的終端用戶——IT 人員都要將這一事件和它的根源關聯起來。確認并修正敏感性或瓶頸——至少暫時要做到這點。如果瓶頸指標數據沒有被監測到,那么,無論如何也要開始對面向應用與業務的管理進行明顯改進來監測它。如果瓶頸指標數據被監測到了,那也要著手改進去調整警報閾值,因此下一次警報能夠在用戶抱怨之前就識別到問題。警報可能是被動的——超過某一閾值的用戶正在經歷性能問題——也可能是主動的——超出閾值給出了一個盡早的警告:如果用戶繼續這么做的話,他將會出現性能問題。
最終,持續的服務改進應該不止是通過改善面向應用與業務的管理解決方案的質量來改進業務服務的水平。它可能意味著,通過撥出額外的資源或者對資源的使用給予優先考慮來控制資源,以致瓶頸將不再發生。
OneAPM 是應用性能管理領域的新興領軍企業,能幫助企業用戶和開發者輕松實現:緩慢的程序代碼和 SQL 語句的實時抓取。想技術文章,請訪問 OneAPM 官方博客。
轉載于:https://my.oschina.net/oneapmofficial/blog/517214
總結
以上是生活随笔為你收集整理的你需要的是持续的服务改进的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 06.移动先行之谁主沉浮----我的代码
- 下一篇: 文本挖掘之文本相似度判定