是什么引起数据中心机房事故频发,是天灾还是人祸?
前言:
數(shù)據(jù)中心機房的安全是網(wǎng)絡(luò)正常運行的前提,它已經(jīng)成為了人們生活的一部分,數(shù)據(jù)中心機房一旦發(fā)生故障將給企業(yè)以及人們帶來極大的損失和不便,輕者造成機房設(shè)備受損,降低使用壽命;重者造成設(shè)備損壞和信息丟失,帶來嚴(yán)重甚至無法挽回的經(jīng)濟損失,數(shù)據(jù)中心安全“事故”頻頻發(fā)生,到底是天災(zāi),還是人禍!下面對數(shù)據(jù)中心機房進行事故分析,解析引起數(shù)據(jù)中心事故的原因。
先是一鏟子引發(fā)支付寶癱瘓,攜程無法服務(wù),接著IDC被雷劈中,準(zhǔn)確的說是云服務(wù)提供商青云qingcloud的IDC機房被雷劈中了……這一系列的故障,既有天災(zāi)又有人禍,非常值得我們警醒地看待數(shù)據(jù)中心安全及災(zāi)備能力。故障突然發(fā)生的一刻,運維人員是否真的能在最短時間內(nèi)有效地完成故障處理,系統(tǒng)是否真的能如預(yù)案中快速恢復(fù),這些都是對數(shù)據(jù)中心故障處理能力的實際考量。
數(shù)據(jù)中心宕機原因分析:
網(wǎng)上有各種說法,有說是數(shù)據(jù)庫數(shù)據(jù)和備份數(shù)據(jù)被物理刪除的,也有說是各個節(jié)點的業(yè)務(wù)代碼被刪除 現(xiàn)在重新在部署,也有說是誤操作,導(dǎo)致業(yè)務(wù)不可用,還有說是黑客攻擊甚至是內(nèi)部員工惡意破壞的。
(1)黑客攻擊和內(nèi)部員工破壞的說法,這個說法能滿足一些圍觀者獵奇的心理,因此也傳播的比較快。但理性分析,可能性也不大。黑客講究的是潛伏和隱蔽,做這種事等于是在做自殺性攻擊。而內(nèi)部員工也不太可能,我還是相信攜程的運維人員的操守和職業(yè)素養(yǎng),在刑法的威懾下,除非像“法航飛行員撞山”那種極個別案列,正常情況下不太可能出現(xiàn)人為惡意的可能性。
(2)最早傳出來的“數(shù)據(jù)庫物理刪除”,其實這個提法就很不專業(yè),應(yīng)該是第一個傳播者,試圖強調(diào)問題之嚴(yán)重和恢復(fù)之困難,所以用了一個普通電腦用戶比較熟悉的“物理刪除”的概念。實際上,任何一個網(wǎng)站的數(shù)據(jù)庫,都分為本地高可用備份、異地?zé)醾洹⒋艓Ю鋫淙婪谰€,相應(yīng)的數(shù)據(jù)庫管理員、操作系統(tǒng)管理員、存儲管理員三者的權(quán)限是分離的,磁帶備份的數(shù)據(jù)甚至是保存在銀行的地下金庫中的。從理論上而言,很難有一個人能把所有的備份數(shù)據(jù)都刪除,更不用說這個繪聲繪色的物理刪除了。
(3)從現(xiàn)象上看,確實是攜程的應(yīng)用程序和數(shù)據(jù)庫都被刪除。我分析,最大的可能還是運維人員在正常的批量操作時出現(xiàn)了誤操作。我猜測的版本是:攜程網(wǎng)被“烏云”曝光了一個安全漏洞,漏洞涉及到了大部分應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器;運維人員在使用pssh這樣的批量操作執(zhí)行修復(fù)漏洞的腳本時,無意中寫錯了刪除命令的對象,發(fā)生了無差別的全局刪除,所有的應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器都受到了影響,這個段子在運維圈子中作為笑話流傳了很多年,沒想到居然真的有這樣一天。
導(dǎo)致數(shù)據(jù)中心機房事故發(fā)生的到底是天災(zāi)還是人禍:
1、“天災(zāi)”
對機房而言,最大的天災(zāi)莫過于:火災(zāi)、地震、雷擊等天然災(zāi)害——導(dǎo)致數(shù)據(jù)中心事故,比如雷擊,會產(chǎn)生強大的沖擊電流,打到設(shè)備上,就會引起設(shè)備器件短路,產(chǎn)生瞬間的高壓,使電路急劇生溫,輕微的可引起設(shè)備短路故障,嚴(yán)重的還能引起火災(zāi),對于這些自然災(zāi)害,數(shù)據(jù)中心也有很多的技術(shù)手段可以最大程度上避免災(zāi)害的發(fā)生,針對每一種自然災(zāi)害數(shù)據(jù)中心都需要加以重視,才能躲避開這些自然災(zāi)害。
比如增加機柜和機房地面的固定螺絲,安裝避雷針,增加放火報警系統(tǒng)和防火器材,當(dāng)出現(xiàn)這些自然災(zāi)害時,減少對數(shù)據(jù)中心的沖擊。
2、“人禍”
人為故障導(dǎo)致的數(shù)據(jù)中心故障占數(shù)據(jù)中心的故障中的70%,其中也可以分為有意的和無意的。有意的是指明知道一些操作會造成數(shù)據(jù)中心故障,仍執(zhí)意去做的,這些人往往希望通過造成數(shù)據(jù)中心運行癱瘓,而達到不可告人的目的。
常見的有黑客、情報人員、商業(yè)機密小偷等等,他們攻擊的對象往往是數(shù)據(jù)中心里的數(shù)據(jù),通過造成數(shù)據(jù)中心故障來達到竊取或損壞數(shù)據(jù)的目的。無意的是指本意并不想破壞數(shù)據(jù)中心,但是由于自己的技術(shù)積累經(jīng)驗不夠或者疏忽,自己的操作引發(fā)了數(shù)據(jù)中心故障,這種故障占到了人為故障的80%以上。
數(shù)據(jù)中心是一個復(fù)雜龐大的系統(tǒng),不可能一個人面面俱到都精通,當(dāng)接觸到自己不熟悉或不了解的地方,操作往往引發(fā)意想不到的結(jié)果,因此加強對人的管理尤為重要。在對數(shù)據(jù)中心做任何調(diào)整時,都要從全局考慮,集中最優(yōu)秀的技術(shù)人員,將人為操作風(fēng)險降低。這類事故往往也很容易留下證據(jù)記錄,給事故分析帶來方便,幾乎所有的數(shù)據(jù)中心都有門禁系統(tǒng)、視頻監(jiān)控系統(tǒng),任何人的出入都有記錄,很容易查到。
有不少的數(shù)據(jù)中心提供遠程的訪問,那么所有的訪問操作在數(shù)據(jù)中心后臺數(shù)據(jù)中心都有記錄,訪問者對數(shù)據(jù)中心業(yè)務(wù)調(diào)整、修改配置、甚至重起設(shè)備等任何操作都會記錄在案,只要數(shù)據(jù)中心不是全面的毀滅,這些記錄都會在后臺的數(shù)據(jù)庫中查到,通過記錄的時間和訪問的人就可以查明人為事故的原因,數(shù)據(jù)中心也有各種各樣的監(jiān)控手段和歷史信息記錄,這些技術(shù)為數(shù)據(jù)中心的穩(wěn)定運行提供了保障,也是不斷推動數(shù)據(jù)中心完善的重要舉措。
如同飛機上的黑匣子,數(shù)據(jù)中心也有自己的一套故障定位信息獲取方案,這些信息可以在一定程度上有效還原故障時數(shù)據(jù)中心的完貌,通過對這些數(shù)據(jù)分析,不僅可以找到故障原因,還可以根據(jù)這些故障對數(shù)據(jù)中心進行優(yōu)化,避免發(fā)生二次故障。
3、設(shè)備故障
除了以上的天災(zāi)人為導(dǎo)致數(shù)據(jù)中心故障,大型的數(shù)據(jù)中心擁有數(shù)千臺設(shè)備很普遍,這些電子設(shè)備難免運行中出現(xiàn)故障,一旦出現(xiàn)故障,就需要對設(shè)備進行分析,很多現(xiàn)場操作人員并不具備分析問題的能力,為了恢復(fù)業(yè)務(wù),只能重起設(shè)備,或者將業(yè)務(wù)切割到別的備份設(shè)備上。當(dāng)故障設(shè)備上沒有業(yè)務(wù)或者已經(jīng)重起了,其上很多時時記錄都會沖掉,這樣給故障分析帶來難度。
很多時候故障的表現(xiàn)也并非集中在某一臺設(shè)備上,心急的操作人員可能將所有設(shè)備全部重啟或?qū)I(yè)務(wù)全部割離,如果設(shè)備能提供詳細的歷史記錄,那么對于故障分析非常有幫助。數(shù)據(jù)中心不怕出故障,怕的是出了故障后找不到原因,這相當(dāng)于給數(shù)據(jù)中心埋了一個定時炸彈。其實在很多高端設(shè)備上已經(jīng)增加了一些可以記錄歷史信息的模塊,比如采用NVRAM、EEPROM等非憶失性器件時時記錄設(shè)備運行的各種參數(shù),當(dāng)設(shè)備發(fā)生故障后,哪怕是設(shè)備發(fā)生了斷電,這些器件依然可以正常運行,記錄下來設(shè)備運行的各種參數(shù),這些數(shù)據(jù)往往是故障后分析參考的最重要數(shù)據(jù)來源。
當(dāng)數(shù)據(jù)中心出現(xiàn)故障后,有的設(shè)備可以提供故障時設(shè)備運行的各種數(shù)據(jù)參數(shù),非常具有說服力,有時也是證明自己設(shè)備沒有問題的重要信息,而一旦在故障后,一些設(shè)備沒有可分析的數(shù)據(jù)記錄,根本分不清是不是自己的問題,這樣的設(shè)備很快就會被數(shù)據(jù)中心所棄用。如果通過數(shù)據(jù)分析是自己設(shè)備的問題,那么設(shè)備商依然可以根據(jù)這些數(shù)據(jù)去優(yōu)化設(shè)備設(shè)計,從而避免這類故障的再次發(fā)生,讓設(shè)備運行更加穩(wěn)定。
避免數(shù)據(jù)中心大型事故發(fā)生的對策:
應(yīng)對數(shù)據(jù)中心大型事故,運維人員在其中發(fā)揮著至關(guān)重要的作用,從初期的數(shù)據(jù)中心規(guī)劃設(shè)計,機房建成的驗收測試、機房運營過程中對于機房的定期檢測,對于突發(fā)狀況的預(yù)案等等,無一不考驗數(shù)據(jù)中心運維人員對于數(shù)據(jù)中心大型事故的應(yīng)對及避免出現(xiàn)重型事故。
數(shù)據(jù)中心安全我們疏忽了什么?
由上不難看出數(shù)據(jù)中心安全事故對于企業(yè)及用戶影響之深,正所謂“三分技術(shù),七分管理”,大量的事實表明,數(shù)據(jù)中心的好與差評判標(biāo)準(zhǔn)都是由管理水平的高低所決定的。不管是天災(zāi)還是人禍,數(shù)據(jù)中心安全值得重視,從初期規(guī)劃設(shè)計、到后期運維管理都應(yīng)遵照一定的標(biāo)準(zhǔn),以確保數(shù)據(jù)中心安全運行,數(shù)據(jù)中心安全容不得絲毫馬虎!
加入VIP群
《數(shù)據(jù)中心運維管理》VIP技術(shù)交流群會員招募說明
加入學(xué)習(xí)群掃描以下二維碼或者添加微信:wang2017bj
總結(jié)
以上是生活随笔為你收集整理的是什么引起数据中心机房事故频发,是天灾还是人祸?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 和低压电气有关的71个问题
- 下一篇: 数据中心配电方案