数据中心监控管理系统设计(之一)
生活随笔
收集整理的這篇文章主要介紹了
数据中心监控管理系统设计(之一)
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
?
數(shù)據(jù)中心監(jiān)控管理系統(tǒng)設(shè)計 3.1引言 數(shù)據(jù)中心經(jīng)歷了四個功能階段的發(fā)展和演進(jìn),從早期的“數(shù)據(jù)存儲中心”階段,經(jīng)過“數(shù)據(jù)處理中心”和“數(shù)據(jù)應(yīng)用中心”兩個階段,如今已經(jīng)進(jìn)入“數(shù)據(jù)運營服務(wù)中心”階段?,F(xiàn)階段的數(shù)據(jù)中心已經(jīng)成為絕大部分企業(yè)或組織滿足基本業(yè)務(wù)運營和實現(xiàn)業(yè)務(wù)戰(zhàn)略的不可或缺的一部分。簡單的說,無論你是什么行業(yè),傳統(tǒng)制造業(yè),還是新興服務(wù)業(yè),你的數(shù)據(jù)中心已經(jīng)緊緊地和你的主業(yè)捆綁在一起了。數(shù)據(jù)中心的運行狀況、規(guī)劃發(fā)展直接影響著企業(yè)或組織的業(yè)務(wù)開發(fā)和業(yè)務(wù)運營。 依據(jù)基礎(chǔ)設(shè)施在數(shù)據(jù)中心的邏輯位置(如圖1),數(shù)據(jù)中心的基礎(chǔ)設(shè)施的運行狀態(tài)也是反映數(shù)據(jù)中心運行狀況的關(guān)鍵面之一。國內(nèi)外數(shù)據(jù)中心建設(shè)規(guī)范都要求對數(shù)據(jù)中心基礎(chǔ)設(shè)施進(jìn)行監(jiān)控;目的是確保數(shù)據(jù)中心基礎(chǔ)設(shè)施運行狀態(tài)滿足數(shù)據(jù)中心所支撐和服務(wù)的各種應(yīng)用系統(tǒng)正常運營和業(yè)務(wù)連續(xù)。如果由于數(shù)據(jù)中心基礎(chǔ)設(shè)施故障造成數(shù)據(jù)中心發(fā)生癱瘓,將造成機構(gòu)業(yè)務(wù)停頓。近幾年,銀行、保險、證券、民航等行業(yè)相繼出現(xiàn)了一些數(shù)據(jù)中心故障,造成了很大的社會影響和經(jīng)濟損失。 圖1:基礎(chǔ)實施在數(shù)據(jù)中心架構(gòu)中的定位 數(shù)據(jù)中心基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng)是一個以計算機軟件技術(shù)為基礎(chǔ),利用網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)、通信技術(shù)、嵌入式技術(shù)、工業(yè)自動控制技術(shù)、新型傳感技術(shù)等構(gòu)成的專業(yè)化、自動化、智能化的綜合監(jiān)控管理系統(tǒng)。該系統(tǒng)可實時收集各種被監(jiān)控設(shè)備的運行參數(shù)、工作狀態(tài)及告警信息、能對智能型和非智能型的設(shè)備進(jìn)行監(jiān)控,準(zhǔn)確的實現(xiàn)遙信、遙調(diào)、遙控及遙調(diào)等功能,確保數(shù)據(jù)中心各種基礎(chǔ)設(shè)施運行正常和快速恢復(fù)。另外,在設(shè)施監(jiān)控的基礎(chǔ)上,能夠為IT服務(wù)管理提供基礎(chǔ)數(shù)據(jù)和流程支持。 本文主要描述一般數(shù)據(jù)中心基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng)的建設(shè)目標(biāo)、設(shè)計原則、監(jiān)控范圍、軟硬件架構(gòu)、系統(tǒng)組成和功能,以及監(jiān)控管理系統(tǒng)關(guān)鍵技術(shù)等。 ? 3.2設(shè)計目標(biāo) 數(shù)據(jù)中心基礎(chǔ)設(shè)施的監(jiān)控工作是數(shù)據(jù)中心運維管理工作的一個既基礎(chǔ)又核心的內(nèi)容,這是因為一方面基礎(chǔ)設(shè)施為數(shù)據(jù)中心運維提供基本的和底層的物理環(huán)境資源保障,另一方面,對基礎(chǔ)設(shè)施運行的監(jiān)控數(shù)據(jù)和監(jiān)控信息將成為數(shù)據(jù)中心服務(wù)管理(ITSM)的某些流程的輸入(如:ITIL事件管理、容量管理等)。因此,站在IT服務(wù)的高度,對基礎(chǔ)設(shè)施監(jiān)控系統(tǒng)進(jìn)行設(shè)計是非常必要的。 (一)設(shè)計目標(biāo) 設(shè)計目標(biāo)來源于對用戶的戰(zhàn)略性需求和當(dāng)前使用需求的平衡。不同的客戶在設(shè)計目標(biāo)上存在差異。確定設(shè)計目標(biāo),與其說是一個技術(shù)問題,不如說是一個管理決策問題。但是一般來講,首先應(yīng)該緊緊抓住用戶面臨的問題和迫切需求,確立它的最低建設(shè)(設(shè)計)目標(biāo)。 根據(jù)我的經(jīng)驗,以下幾點應(yīng)該作為基礎(chǔ)設(shè)施監(jiān)控管理系統(tǒng)的最低設(shè)計目標(biāo): (1)???? 能夠?qū)λ袛?shù)據(jù)中心機房的基礎(chǔ)設(shè)施提供實時的狀態(tài)監(jiān)測 要確保監(jiān)控覆蓋范圍滿足數(shù)據(jù)中心管理的要求,盡可能地全覆蓋對所有支持企業(yè)或組織業(yè)務(wù)連續(xù)運行的動力、環(huán)境等系統(tǒng)的在線實時監(jiān)測。 (2)???? 最大可能地降低人工監(jiān)控和管理引入漏檢和誤報的風(fēng)險 最好在監(jiān)控系統(tǒng)上線后,人工現(xiàn)場監(jiān)測操作從常態(tài)工作轉(zhuǎn)變成非常態(tài)工作,例如:只是人工(維護人員或設(shè)備廠商)定期(月/季度)現(xiàn)場巡(抽)檢。同時,監(jiān)控事件以自動化的方式通知(分派),杜絕人工誤報和延誤處理。 (3)???? 提供一個監(jiān)測-控制(管控)-再監(jiān)測的閉環(huán)管理 監(jiān)測不是目的,也不是監(jiān)控系統(tǒng)的運行終點。當(dāng)被監(jiān)控對象處于非正常狀態(tài)時,干預(yù)控制(人工或系統(tǒng)聯(lián)動)是必須的。同時,干預(yù)控制的有效性和結(jié)果,也必須通過再監(jiān)測來判斷。這是一個閉環(huán)管理的過程,系統(tǒng)應(yīng)該滿足。例如:空調(diào)系統(tǒng)的監(jiān)控。 (4)???? 相對提高運維團隊的工作效率 數(shù)據(jù)中心的人力資源配備在絕大多數(shù)企業(yè)或組織從來都是“捉襟見肘”的。因為他“歷史上”不是一線業(yè)務(wù)部門,不直接創(chuàng)造企業(yè)價值和利潤。所以,常常面臨“事多人少”的工作局面。采用集中監(jiān)控管理、遠(yuǎn)程監(jiān)控管理、無人值守、自動巡檢等技術(shù),可以相對地提高基礎(chǔ)設(shè)施維護人員的工作效率。這一點是最得人心的項目收益。 (5)???? 能夠記錄被監(jiān)控對象的歷史運行數(shù)據(jù) 歷史數(shù)據(jù)的價值之一就像病人的既往病例,它為新的問題解決提供參考。另外一方面,它可以“還原真相”,是系統(tǒng)安全審計的基本要求。這個設(shè)計目標(biāo)將會帶出大數(shù)據(jù)存儲、處理與訪問的問題。 (6)???? 定義和報告被監(jiān)控對象乃至整個數(shù)據(jù)中心基礎(chǔ)設(shè)施的運行狀態(tài)指標(biāo)和健康指標(biāo) 數(shù)據(jù)中心的基礎(chǔ)設(shè)施包括的子系統(tǒng)多,設(shè)備種類多,如果不能事先定義好(或者是可定義的)監(jiān)控指標(biāo)和健康指標(biāo),那么,維護人員一定會被淹沒在廢數(shù)據(jù)的海洋,無法準(zhǔn)確判斷基礎(chǔ)實施的整體運行狀態(tài)。 在數(shù)據(jù)中心基礎(chǔ)設(shè)施的生命周期里,基礎(chǔ)設(shè)施的健康指標(biāo)應(yīng)該被定義(比如:平均設(shè)備使用年限、平均設(shè)備故障覆蓋率等等),以此來量化衡量基礎(chǔ)設(shè)施的剩余使用能力。 (7)???? 最大可能地預(yù)測被監(jiān)控對象的運行趨勢,預(yù)防問題發(fā)生 大家可以想見,一旦數(shù)據(jù)中心基礎(chǔ)設(shè)施出現(xiàn)重大故障,企業(yè)或組織的業(yè)務(wù)必然馬上受到影響甚至中斷,損失即刻發(fā)生。(2011年國內(nèi)某保險公司因為供電系統(tǒng)問題,導(dǎo)致業(yè)務(wù)停止,損失約3個億)。所以,監(jiān)控系統(tǒng)如果能夠根據(jù)被監(jiān)控對象的歷史運行情況,推演問題趨勢,就可以提前采取措施排除問題隱患。從這個意義上看,最有價值的監(jiān)控系統(tǒng)就是可以預(yù)防問題發(fā)生的監(jiān)控系統(tǒng)。 (8)???? 提供基礎(chǔ)設(shè)施突發(fā)問題的預(yù)案 現(xiàn)實中問題總會發(fā)生,哪怕等上幾年!所以,為你的監(jiān)控系統(tǒng)買個“保險”,開發(fā)各種問題處理預(yù)案。 (9)???? 監(jiān)控系統(tǒng)自身無障礙運行 這個不說了,就像交通電子眼一旦壞了,怎么知道誰闖了紅燈? 另外,近年來,隨著數(shù)據(jù)中心行業(yè)的蓬勃發(fā)展和面向IT 服務(wù)的功能轉(zhuǎn)變,機房數(shù)量劇增、規(guī)模擴大、結(jié)構(gòu)更加復(fù)雜、監(jiān)控業(yè)務(wù)增長,新的監(jiān)控管理需求不斷出現(xiàn),因此,新一代監(jiān)控管理系統(tǒng)還應(yīng)該把以下幾點作為設(shè)計目標(biāo): (10)?滿足數(shù)據(jù)中心快速擴容的要求 (11)?滿足跨區(qū)域聯(lián)網(wǎng)監(jiān)控的要求 (12)?滿足分級分區(qū)域管理的要求 (13)?滿足異地災(zāi)備的要求 (14)?能夠與數(shù)據(jù)中心其他信息系統(tǒng)集成 與數(shù)據(jù)中心資產(chǎn)管理系統(tǒng)的集成,或者與ITIL框架下CMDB、知識管理系統(tǒng)的集成。與ITIL框架下服務(wù)運維模塊中的問題管理的集成。與數(shù)據(jù)中心統(tǒng)一的身份認(rèn)證系統(tǒng)集成。等等。 (15)?能夠?qū)?shù)據(jù)中心基礎(chǔ)設(shè)施進(jìn)行科學(xué)評價 在對基礎(chǔ)設(shè)施監(jiān)控的基礎(chǔ)上,進(jìn)一步對其等級和持續(xù)可用性進(jìn)行評價,作為數(shù)據(jù)中心基礎(chǔ)設(shè)施維護的依據(jù)。比如:數(shù)據(jù)中心能耗評估。通過監(jiān)控系統(tǒng)采集的用電量計算電能使用效率PUE(Power Usage?Effectiveness)。再比如:成本平均。轉(zhuǎn)載于:https://blog.51cto.com/yangruosong/1047393
總結(jié)
以上是生活随笔為你收集整理的数据中心监控管理系统设计(之一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 比较两篇文章的相似性
- 下一篇: Windows Server 2012改